XÂY DỰNG MỘT PHƯƠNG PHÁP NHẬN
DẠNG MỚI TRONG XỬ LÝ TÀI LIỆU ĐỊA VẬT LÝ TRÊN CƠ SỞ VẬN DỤNG KẾT HỢP CÁC PHƯƠNG
PHÁP PHÂN TÍCH KHOẢNG CÁCH KHÁI QUÁT VÀ PHÂN TÍCH TẦN SUẤT
VÕ THANH QUỲNH
Trường Đại học Khoa học Tự nhiên, 334 Nguyễn
Trãi, Thanh Xuân, Hà Nội
Tóm
tắt: Các phương pháp nhận dạng đóng vai trò rất quan
trọng trong xử lý, phân tích tài liệu địa vật lý. Hiện nay có rất nhiều thuật
toán nhận dạng hiện đại được tự động hóa bằng các hệ phần mềm chuyên dụng mạnh.
Tuy nhiên, khi tiến hành các phương pháp nhận dạng, có một số hạn chế cần được
nghiên cứu khắc phục. Theo hướng này đã có một số công trình nghiên cứu và thu
được kết quả tốt. Để tiếp tục hoàn thiện và nâng cao hiệu quả của các phương
pháp nhận dạng, tác giả đã nghiên cứu và xây dựng một phương pháp phân tích
nhận dạng mới trên cơ sở vận dụng kết hợp các phương pháp phân tích khoảng cách
khái quát và phân tích tần suất với tên gọi: phương pháp khoảng cách - tần suất
- nhận dạng. Phương pháp mới này đã được áp dụng có hiệu quả trong việc phân
tích tài liệu địa vật lý hàng không một số vùng ở Việt
Các
phương pháp nhận dạng đóng vai trò hết sức quan trọng trong xử lý, phân tích
tài liệu địa vật lý, đặc biệt là đối với các dạng số liệu có đặc tính phân bố
ngẫu nhiên, như các số liệu địa hóa, phổ gamma v.v.. Hiện nay, trong địa vật lý
có rất nhiều thuật toán nhận dạng hiện đại, được tự động hóa bằng các hệ phần
mềm chuyên dụng mạnh, đáng chú ý có bộ chương trình phân tích phổ - thống kê do
GS.VS. Nikitin cùng các đồng sự xây dựng. Tuy nhiên, trên thực tế, khối lượng
tài liệu cũng như số lượng các chủng loại thông tin thu được trên các đối tượng
địa chất ngày càng rất lớn. Trong khi đó, số lượng các tham số đầu vào của các
chương trình phân tích nhận dạng hiện có thường bị giới hạn. Việc sử dụng các
tổ hợp thông tin khác nhau để tiến hành phân tích nhận dạng nhiều khi cho những
kết quả rất khác nhau. Để nâng cao độ tin cậy của các phương pháp phân tích
nhận dạng đã có những công trình nghiên cứu theo hướng ứng dụng lớp bài toán
đánh giá lựa chọn thông tin để lựa chọn những tổ hợp thông tin chất lượng cao
trước khi tiến hành phân tích nhận dạng. Cũng từ đó đề xuất những cách tiếp cận
mới giải quyết bài toán nhận dạng trong xử lý số liệu địa vật lý và thu được
kết quả tốt [8]. Mặc dù vậy, các phương pháp phân tích đối sánh cũng như đánh
giá lựa chọn thông tin có ứng dụng thuật toán phân tích tần suất nói trên chỉ
tiến hành trên một loại đối tượng mẫu, đó là các đối tượng cần tìm. Do vậy, việc
sử dụng thuật toán nhận dạng tần suất trong một số trường hợp sẽ gặp hạn chế.
Thực tế có những loại thông tin khi đánh giá trên đối tượng mẫu là tin cậy,
nhưng đặc trưng của chúng lại tương tự đặc trưng của các đối tượng đối nghịch
với đối tượng mẫu, khi đó việc sử dụng các thông tin này để phân tích đối sánh,
xác định đối tượng đồng dạng dễ bị nhầm lẫn, làm giảm độ tin cậy. Trong khi đó,
trong nhiều trường hợp thực tế, ta có được đồng thời hai loại đối tượng mẫu đối
nghịch nhau là đối tượng cần tìm và đối tượng đối nghịch với nó (ví dụ đối
tượng quặng và đối tượng không quặng). Rõ ràng trong trường hợp này cần có các
thuật toán nhận dạng mới sao cho việc đánh giá lựa chọn tổ hợp thông tin được
tiến hành đồng thời trên cả hai loại đối tượng mẫu, để từ đó tiến hành phân
tích đối sánh, nhận biết, phân biệt đối tượng sẽ cho kết quả tin cậy hơn. Theo
hướng này, chúng tôi đã nghiên cứu vận dụng kết hợp phương pháp phân tích
khoảng cách khái quát theo thuật toán của Paguonov và phương pháp phân tích tần
suất theo thuật toán Griffiths-Vinni trong đánh giá lựa chọn thông tin cũng như
trong phân tích đối sánh xác định đối tượng đồng dạng. Từ đó, chúng tôi xây
dựng thành một phương pháp phân tích nhận dạng mới với tên gọi “Phương pháp
khoảng cách - tần suất - nhận dạng”. Những phân tích thử nghiệm trên các tài
liệu thực tế bằng phương pháp phân tích nhận dạng mới nói trên đã cho kết quả
tốt.
II. NỘI DUNG CÁC PHƯƠNG PHÁP PHÂN TÍCH KHOẢNG CÁCH KHÁI QUÁT VÀ PHÂN TÍCH TẦN SUẤT
1. Phương pháp phân tích khoảng cách khái quát
Phương
pháp phân tích khoảng cách khái quát do Paguonov đề xuất nhằm xác định mức độ
thông tin của các tính chất có khả năng phân biệt đối tượng thông qua độ dài
khoảng cách khái quát trong không gian dấu hiệu giữa hai loại đối tượng mẫu đối
nghịch nhau. Nội dung phương pháp được tóm tắt như sau:
Giả
sử ta có 2 đối tượng mẫu đối nghịch nhau (ví dụ quặng và không quặng; sau đây
gọi là đối tượng quặng và đối tượng không quặng) có k loại dấu hiệu (k tính
chất) mỗi dấu hiệu có n giá trị (với đối tượng quặng) và m giá trị (với đối
tượng không quặng) đã biết. Khi đó ta có các ma trận thông tin của các đối
tượng mẫu như sau:
Đối
tượng quặng:
(2.1)
Đối tượng không quặng:
(2.2)
Các
ma trận này phải có cùng số loại tính chất, nghĩa là có số cột bằng nhau, còn
số dòng tùy ý.
Theo Paguonov, lượng thông tin của tính
chất thứ “i” được đánh giá theo bình phương khoảng cách khái quát giữa trọng
tâm các đám mây trong không gian dấu hiệu:
(2.3)
trong
đó:
(2.4)
, - giá trị trung bình của tính chất “i” đối với quặng và
không quặng.
,- phương sai của các giá trị của tính chất “i” đối với quặng
và không quặng.
Sắp xếp {} theo thứ tự giảm dần và gọi nó là {}. Khi đó, thông tin tổng của j tính chất đầu trong toàn bộ k
tính chất được tính theo công thức:
(2.5)
Trị số có quan hệ với sai số
nhận biết, phân biệt đối tượng như sau:
(2.6)
2. Phương pháp phân tích tần suất
Phương pháp phân tích tần suất với việc sử dụng tần
suất trung bình của sự xuất hiện đồng thời các dấu hiệu do Griffths-Vinni đưa
ra tiến hành trên một loại đối tượng mẫu có nội dung tóm tắt như sau:
Giả sử ta có đối tượng nghiên cứu với k loại dấu
hiệu, mỗi dấu hiệu có n số liệu đã biết. Khi đó ta có ma trận thông tin các dấu
hiệu của đối tượng mẫu như sau:
(2.7)
trong đó các phân tử của ma trận được biểu
diễn bằng các khái niệm logic: “yes” hoặc “no” hoặc bằng các số 1 hoặc 0.
Theo Griffths-Vinni, lượng thông tin tương đối của
dấu hiệu thứ “i” được xác định theo công thức:
(2.8)
Nếu sắp xếp các dấu hiệu của đối tượng theo thứ tự
giảm dần của lượng thông tin tương đối, ta sẽ được tập mới là {}. Khi đó tỷ trọng thông tin của tổng m dấu hiệu đầu tính
theo tỉ lệ % trong tổng thông tin của tất cả k dấu hiệu được tính bằng:
(2.9)
Pm là cơ sở để lựa chọn tập hợp các tính
chất đủ chứa tải những thông tin cần thiết theo yêu cầu nghiên cứu.
Từ nội dung của hai phương pháp phân tích như đã
nêu (phương pháp phân tích khoảng cách khái quát và phương pháp phân tích tần
suất), ta thấy về bản chất chúng là các phương pháp đánh giá chất lượng của
từng loại thông tin dựa trên cơ sở dữ liệu và cách đánh giá khác nhau, từ đó
lựa chọn tổ hợp các loại thông tin có giá trị cao phục vụ các mục đích nghiên
cứu.
Ở Việt
III. NỘI DUNG PHƯƠNG PHÁP KHOẢNG CÁCH - TẦN SUẤT - NHẬN DẠNG
Tương
tự phương pháp tần suất - nhận dạng, phương pháp khoảng cách - tần suất - nhận
dạng cũng theo 3 nội dung chính sau:
-
Xây dựng ma trận thông tin của đối tượng mẫu (đối tượng chuẩn);
-
Đánh giá, lựa chọn tổ hợp thông tin;
-
Phân tích đối sánh, xác định các đối tượng đồng dạng.
1. Phương pháp xây dựng ma trận thông tin đối tượng mẫu
Các ma trận thông tin của đối tượng mẫu (quặng và
không quặng) theo phương pháp phân tích khoảng cách khái quát dễ dàng có được
trực tiếp từ số liệu địa vật lý trên các đối tượng mẫu đó. Ma trận thông tin
của đối tượng mẫu trong phương pháp phân tích tần suất được xây dựng từ chính
ma trận mẫu quặng (2.1) như sau:
Từ tập hợp số liệu của các chủng loại thông tin của
đối tượng mẫu quặng trong phương pháp phân tích khoảng cách khái quát, xây dựng
các đường cong biến phân (đường cong mật độ phân bố). Từ các đường cong biến
phân xác định khoảng giá trị đặc trưng cho từng tham số. Sau khi có được các
khoảng giá trị đặc trưng, dùng nó làm “cửa sổ quét” để tạo ra các đơn vị thông
tin cho từng loại thông tin, nếu nó nằm trong khoảng giá trị đặc trưng sẽ nhận
giá trị là 1, nằm ngoài sẽ nhận giá trị là 0. Bằng cách này sẽ chuyển được một
ma trận thông tin với các số liệu địa chất, địa vật lý bất kỳ (2.1) về ma trận
thông tin chuẩn theo yêu cầu của thuật toán với các phần từ là các giá trị 1
hoặc 0 (2.7).
2. Phương pháp đánh giá lựa chọn tổ hợp thông tin
Việc đánh giá lựa chọn tổ hợp thông tin được tiến hành
trên cơ sở vận dụng kết hợp cả hai phương pháp theo cách như sau:
- Tiến hành phương pháp phân tích khoảng cách khái
quát trên ma trận thông tin của 2 đối tượng mẫu (quặng và không quặng) xác định
tập {}.
- Tiến hành phương pháp phân tích tần suất trên ma
trận thông tin của đối tượng mẫu quặng. Đến đây ta không sắp xếp {} theo thứ tự giảm dần của chính nó để có tập {} mà sắp xếp nó theo thứ tự của tập {} và gọi tập mới này là {Ji}.
Tính tỷ trọng thông tin tương đối của h tính chất
đầu theo tập {Ji}, ta gọi nó là Qh. Khi đó Qh
được tính:
(3.1)
Tổ hợp h tính chất đầu được lựa chọn thông qua các
giá trị Qh như sau:
Xây dựng đường cong Qh theo h (trục y là
Qh, trục x là h); giá trị h được xác định sao
cho tại đó trị tuyệt đối đạo hàm bậc 2 của Qh theo h có giá trị lớn
nhất (max) nghĩa là tại đó có sự phân chia (phân tách) rõ nhất giữa
tập các thông tin độ tin cậy cao và tập các thông tin độ tin cậy thấp. Trên
đường cong Qh hoành độ h được
xác định tại điểm có độ cong lớn nhất.
3. Phương pháp phân tích đối sánh xác định các đối tượng đồng dạng
Việc đối sánh các đối tượng với đối tượng mẫu để
xem nó có đồng dạng với đối tượng mẫu hay không được thực hiện theo cách như
sau:
- Tiến hành đánh giá lượng tin Ii cho
tất cả các tính chất của đối tượng đối sánh bằng phương pháp phân tích tần suất
và xác định được tập {Ii}. Ở
đây, ma trận thông tin của đối tượng đối sánh được xây dựng thông qua chính các
khoảng giá trị đặc trưng của đối tượng mẫu với cách làm như đã nêu.
- Tính tỷ trọng thông tin tương đối của h tính chất
đầu đã được lựa chọn ở mục 2 theo công thức (3.1) cho đối tượng đối sánh, ký
hiệu là Q*h.
Đối tượng đối sánh được xem là đồng dạng với đối
tượng mẫu khi Q*h ≥ Qh.
IV. XÂY DỰNG CHƯƠNG TRÌNH VÀ KẾT QUẢ ÁP DỤNG THỰC TẾ
Chúng tôi đã xây dựng chương trình xử lý trên máy
tính (chương trình QKC) theo trình tự nội dung các bước của phương pháp như đã
nêu.
Chương trình này cho phép xử lý đối với mọi dạng số
liệu địa chất, địa vật lý bất kỳ và đã tiến hành phân tích áp dụng thực tế đối
với nguồn tài liệu thực tế rất phong phú của vùng bay Tuy Hòa.
Vùng bay Tuy Hòa có tổng diện tích 7.600 km2
được bay đo từ - phổ gamma tỷ lệ 1:25.000 với gần 2000 dị thường phổ gamma được
phát hiện, chia thành 120 cụm dị thường. Từ các kết quả đo vẽ tỷ lệ lớn dưới
mặt đất, cũng như kết quả kiểm tra mặt đất các dị thường, ta thấy khoáng sản
trong vùng khá phong phú, đáng chú ý có vàng, thiếc, wolfram, trong đó nổi bật
nhất là vàng với nhiều điểm quặng đã được phát hiện. Trong số 28 cụm dị thường
được lựa chọn từ 120 cụm để tiến hành kiểm tra mặt đất, có 16 cụm được đánh giá
là rất có triển vọng, 12 cụm được đánh giá là ít hoặc không có triển vọng.
Chúng tôi cũng đã tiến hành phân tích bằng phương
pháp khoảng cách - tần suất - nhận dạng cho toàn bộ số liệu của 120 cụm dị
thường với các đối tượng mẫu quặng là các cụm trùng với các điểm quặng đã biết,
các đối tượng mẫu không quặng là các cụm đã kiểm tra mặt đất và được khẳng định
là hoàn toàn không có triển vọng. Đó là các cặp cụm đối tượng mẫu: - cụm 68
(bản chất K) được đánh giá tài nguyên dự báo cấp P ước khoảng 5000 kg vàng và
cụm 88 (bản chất K) đối tượng không quặng; - cụm 38 (bản chất tổ hợp - K) đối
tượng quặng được đánh giá có triển vọng thiếc, wolfram và cụm 55 (bản chất tổ
hợp - K) đối tượng không quặng.
Với 2 cặp cụm đối tượng mẫu nói trên, đã xác định
được 21 cụm đồng dạng với đối tượng quặng (13 của cụm 68 và 8 của cụm 38).
Trong số 21 cụm đồng dạng được xác định có 13 cụm đã tiến hành công tác kiểm
tra mặt đất, kết quả 6 cụm được đánh giá triển vọng loại 1, 6 cụm triển vọng
loại 2, chỉ có 1 cụm được đánh giá ít có triển vọng (xem Bảng 1, Bảng 2).
Bảng 1. Các
cụm đối tượng mẫu
Đối tượng quặng: cụm 68
(K); Đối tượng không quặng: cụm 88 (K)
STT |
Số
hiệu cụm đồng dạng |
Cụm đã
kiểm tra mặt đất |
Kết
quả đánh giá |
1 |
10 |
* |
T.V. loại 2 |
2 |
19 |
|
|
3 |
24 |
|
|
4 |
39 |
|
|
5 |
60 |
* |
T.V. loại 2 |
6 |
66 |
|
|
7 |
74 |
* |
T.V. loại 2 |
8 |
87 |
* |
T.V. loại 1 |
9 |
89 |
* |
T.V. loại 1 |
10 |
94 |
* |
T.V. loại 1 |
11 |
95 |
* |
T.V. loại 2 |
12 |
99 |
|
|
13 |
101 |
* |
T.V. loại 2 |
Bảng 2. Các cụm đối tượng mẫu
Đối tượng quặng: cụm 38 (Th-K); Đối tượng không quặng: cụm 55 (Th-K).
STT |
Số
hiệu cụm đồng dạng |
Cụm đã
kiểm tra mặt đất |
Kết
quả đánh giá |
1 |
21 |
|
|
2 |
28 |
* |
T.V. loại 1 |
3 |
41 |
* |
T.V. loại 1 |
4 |
52 |
* |
T.V. loại 1 |
5 |
56 |
* |
Ít triển vọng |
6 |
90 |
|
|
7 |
95 |
* |
T.V. loại 2 |
8 |
105 |
|
|
(Các kết quả kiểm tra đánh giá mặt đất lấy theo “Báo cáo Kết quả bay
đo từ - phổ gamma tỷ lệ 1:25.000 vùng Tuy Hòa, 1996”. Lưu trữ Địa chất, Hà Nội).
V. KẾT LUẬN
Cũng như phương pháp tần suất - nhận dạng, đây là
một phương pháp phân tích nhận dạng mới, được xây dựng trên cơ sở vận dụng kết
hợp phương pháp phân tích khoảng cách khái quát theo thuật toán Paguonov và
phương pháp tần suất theo thuật toán Griffiths-Vinni. Những kết quả phân tích
thực tế trên một vùng diện tích rộng lớn với khối lượng tài liệu rất phong phú
đã nói lên độ tin cậy cũng như ý nghĩa khoa học và thực tiễn của phương pháp. Phương pháp này cùng với phương pháp tần
suất - nhận dạng đã hoàn toàn có thể ứng dụng để giải quyết nhiệm vụ tìm kiếm
và dự đoán triển vọng khoáng sản trong xử lý, phân tích tài liệu địa vật lý máy
bay, một nguồn tài liệu đồ sộ và hết sức phong phú, nhưng chưa được khai thác
triệt để ở nước ta hiện nay.
Về nguyên tắc, phương pháp này có thể mở rộng cho
các dạng tài liệu địa vật lý khác nhau, cho các mục đích, đối tượng nghiên cứu
khác nhau. Đây cũng là hướng nghiên cứu tiếp theo của tác giả để từng bước hoàn
thiện và mở rộng hơn nữa phạm vi ứng dụng của phương pháp. Những kết quả đạt
được cũng mở rộng hướng nghiên cứu mới khai thác ứng dụng lớp bài toán đánh giá
lựa chọn thông tin để hoàn thiện và nâng cao hơn nữa hiệu quả của các phương
pháp phân tích nhận dạng trong xử lý, phân tích tài liệu địa vật lý.
VĂN LIỆU
1. Bath M., 1974. Spectral analysis in
geophysics.
2.
3. Đặng Mai, 2004. Toán ứng
dụng trong địa chất. Nxb Đại học Quốc gia
Hà Nội.
4. Leveling airborne gamma-radiation data using
between-channel correction information. Geophysics,
52/11.
5. Paratov
G. C., 1977. Các phương pháp toán trong
tìm kiếm tham dò khoáng sản. Nxb Nedra,
Moskva (tiếng Nga).
6. Vo Thanh
Quynh, 1996. Enhancement of effectiveness of extracting and using the information in
analyzing and processing the airborne gamma – spectrometic data by using new
methods. International Workshop and
Exhibition on Geophysics. Hà Nội.
7. Võ Thanh
Quỳnh (Chủ biên), 1996. Báo cáo Kết quả bay đo từ - phổ gamma tỷ lệ 1:25.000 vùng Tuy Hòa. Lưu trữ Địa chất. Hà Nội.
8. Võ Thanh
Quỳnh, 2007. Một cách tiếp cận mới giải quyết bài toán nhận dạng trong xử lý, phân
tích tài liệu địa vật lý. TC Địa chất,
A/302 : 76-80. Hà Nội.