XÂY DỰNG MỘT PHƯƠNG PHÁP NHẬN DẠNG MỚI TRONG XỬ LÝ TÀI LIỆU ĐỊA VẬT LÝ TRÊN CƠ SỞ VẬN DỤNG KẾT HỢP CÁC PHƯƠNG PHÁP PHÂN TÍCH KHOẢNG CÁCH KHÁI QUÁT VÀ PHÂN TÍCH TẦN SUẤT

VÕ THANH QUỲNH

Trường Đại học Khoa học Tự nhiên, 334 Nguyễn Trãi, Thanh Xuân, Hà Nội

Tóm tắt: Các phương pháp nhận dạng đóng vai trò rất quan trọng trong xử lý, phân tích tài liệu địa vật lý. Hiện nay có rất nhiều thuật toán nhận dạng hiện đại được tự động hóa bằng các hệ phần mềm chuyên dụng mạnh. Tuy nhiên, khi tiến hành các phương pháp nhận dạng, có một số hạn chế cần được nghiên cứu khắc phục. Theo hướng này đã có một số công trình nghiên cứu và thu được kết quả tốt. Để tiếp tục hoàn thiện và nâng cao hiệu quả của các phương pháp nhận dạng, tác giả đã nghiên cứu và xây dựng một phương pháp phân tích nhận dạng mới trên cơ sở vận dụng kết hợp các phương pháp phân tích khoảng cách khái quát và phân tích tần suất với tên gọi: phương pháp khoảng cách - tần suất - nhận dạng. Phương pháp mới này đã được áp dụng có hiệu quả trong việc phân tích tài liệu địa vật lý hàng không một số vùng ở Việt Nam.


I. ĐẶT VẤN ĐỀ

Các phương pháp nhận dạng đóng vai trò hết sức quan trọng trong xử lý, phân tích tài liệu địa vật lý, đặc biệt là đối với các dạng số liệu có đặc tính phân bố ngẫu nhiên, như các số liệu địa hóa, phổ gamma v.v.. Hiện nay, trong địa vật lý có rất nhiều thuật toán nhận dạng hiện đại, được tự động hóa bằng các hệ phần mềm chuyên dụng mạnh, đáng chú ý có bộ chương trình phân tích phổ - thống kê do GS.VS. Nikitin cùng các đồng sự xây dựng. Tuy nhiên, trên thực tế, khối lượng tài liệu cũng như số lượng các chủng loại thông tin thu được trên các đối tượng địa chất ngày càng rất lớn. Trong khi đó, số lượng các tham số đầu vào của các chương trình phân tích nhận dạng hiện có thường bị giới hạn. Việc sử dụng các tổ hợp thông tin khác nhau để tiến hành phân tích nhận dạng nhiều khi cho những kết quả rất khác nhau. Để nâng cao độ tin cậy của các phương pháp phân tích nhận dạng đã có những công trình nghiên cứu theo hướng ứng dụng lớp bài toán đánh giá lựa chọn thông tin để lựa chọn những tổ hợp thông tin chất lượng cao trước khi tiến hành phân tích nhận dạng. Cũng từ đó đề xuất những cách tiếp cận mới giải quyết bài toán nhận dạng trong xử lý số liệu địa vật lý và thu được kết quả tốt [8]. Mặc dù vậy, các phương pháp phân tích đối sánh cũng như đánh giá lựa chọn thông tin có ứng dụng thuật toán phân tích tần suất nói trên chỉ tiến hành trên một loại đối tượng mẫu, đó là các đối tượng cần tìm. Do vậy, việc sử dụng thuật toán nhận dạng tần suất trong một số trường hợp sẽ gặp hạn chế. Thực tế có những loại thông tin khi đánh giá trên đối tượng mẫu là tin cậy, nhưng đặc trưng của chúng lại tương tự đặc trưng của các đối tượng đối nghịch với đối tượng mẫu, khi đó việc sử dụng các thông tin này để phân tích đối sánh, xác định đối tượng đồng dạng dễ bị nhầm lẫn, làm giảm độ tin cậy. Trong khi đó, trong nhiều trường hợp thực tế, ta có được đồng thời hai loại đối tượng mẫu đối nghịch nhau là đối tượng cần tìm và đối tượng đối nghịch với nó (ví dụ đối tượng quặng và đối tượng không quặng). Rõ ràng trong trường hợp này cần có các thuật toán nhận dạng mới sao cho việc đánh giá lựa chọn tổ hợp thông tin được tiến hành đồng thời trên cả hai loại đối tượng mẫu, để từ đó tiến hành phân tích đối sánh, nhận biết, phân biệt đối tượng sẽ cho kết quả tin cậy hơn. Theo hướng này, chúng tôi đã nghiên cứu vận dụng kết hợp phương pháp phân tích khoảng cách khái quát theo thuật toán của Paguonov và phương pháp phân tích tần suất theo thuật toán Griffiths-Vinni trong đánh giá lựa chọn thông tin cũng như trong phân tích đối sánh xác định đối tượng đồng dạng. Từ đó, chúng tôi xây dựng thành một phương pháp phân tích nhận dạng mới với tên gọi “Phương pháp khoảng cách - tần suất - nhận dạng”. Những phân tích thử nghiệm trên các tài liệu thực tế bằng phương pháp phân tích nhận dạng mới nói trên đã cho kết quả tốt.

II. NỘI DUNG CÁC PHƯƠNG PHÁP PHÂN TÍCH KHOẢNG CÁCH KHÁI QUÁT VÀ PHÂN TÍCH TẦN SUẤT

1. Phương pháp phân tích khoảng cách khái quát

Phương pháp phân tích khoảng cách khái quát do Paguonov đề xuất nhằm xác định mức độ thông tin của các tính chất có khả năng phân biệt đối tượng thông qua độ dài khoảng cách khái quát trong không gian dấu hiệu giữa hai loại đối tượng mẫu đối nghịch nhau. Nội dung phương pháp được tóm tắt như sau:

Giả sử ta có 2 đối tượng mẫu đối nghịch nhau (ví dụ quặng và không quặng; sau đây gọi là đối tượng quặng và đối tượng không quặng) có k loại dấu hiệu (k tính chất) mỗi dấu hiệu có n giá trị (với đối tượng quặng) và m giá trị (với đối tượng không quặng) đã biết. Khi đó ta có các ma trận thông tin của các đối tượng mẫu như sau:

Đối tượng quặng:

                                              (2.1)

       Đối tượng không quặng:

                                                 (2.2)

Các ma trận này phải có cùng số loại tính chất, nghĩa là có số cột bằng nhau, còn số dòng tùy ý.

       Theo Paguonov, lượng thông tin của tính chất thứ “i” được đánh giá theo bình phương khoảng cách khái quát giữa trọng tâm các đám mây trong không gian dấu hiệu:

                                                            (2.3)

trong đó:

                                                             (2.4)

, - giá trị trung bình của tính chất “i” đối với quặng và không quặng.

,- phương sai của các giá trị của tính chất “i” đối với quặng và không quặng.

Sắp xếp {} theo thứ tự giảm dần và gọi nó là {}. Khi đó, thông tin tổng của j tính chất đầu trong toàn bộ k tính chất được tính theo công thức:

                                      (2.5)

Trị số  có quan hệ với sai số nhận biết, phân biệt đối tượng  như sau:

            (2.6)

2. Phương pháp phân tích tần suất

Phương pháp phân tích tần suất với việc sử dụng tần suất trung bình của sự xuất hiện đồng thời các dấu hiệu do Griffths-Vinni đưa ra tiến hành trên một loại đối tượng mẫu có nội dung tóm tắt như sau:

Giả sử ta có đối tượng nghiên cứu với k loại dấu hiệu, mỗi dấu hiệu có n số liệu đã biết. Khi đó ta có ma trận thông tin các dấu hiệu của đối tượng mẫu như sau:

                                    (2.7)

trong đó các phân tử  của ma trận được biểu diễn bằng các khái niệm logic: “yes” hoặc “no” hoặc bằng các số 1 hoặc 0.

Theo Griffths-Vinni, lượng thông tin tương đối của dấu hiệu thứ “i” được xác định theo công thức:

                          (2.8)

Nếu sắp xếp các dấu hiệu của đối tượng theo thứ tự giảm dần của lượng thông tin tương đối, ta sẽ được tập mới là {}. Khi đó tỷ trọng thông tin của tổng m dấu hiệu đầu tính theo tỉ lệ % trong tổng thông tin của tất cả k dấu hiệu được tính bằng:

                        (2.9)

Pm là cơ sở để lựa chọn tập hợp các tính chất đủ chứa tải những thông tin cần thiết theo yêu cầu nghiên cứu.

Từ nội dung của hai phương pháp phân tích như đã nêu (phương pháp phân tích khoảng cách khái quát và phương pháp phân tích tần suất), ta thấy về bản chất chúng là các phương pháp đánh giá chất lượng của từng loại thông tin dựa trên cơ sở dữ liệu và cách đánh giá khác nhau, từ đó lựa chọn tổ hợp các loại thông tin có giá trị cao phục vụ các mục đích nghiên cứu.

Ở Việt Nam, các phương pháp này đã được nghiên cứu áp dụng trong một số lĩnh vực thuộc địa chất học. Tuy nhiên, trong địa vật lý thì hầu như chưa được đề cập đến. Nhằm góp phần hoàn thiện và nâng cao hơn nữa độ tin cậy của các kết quả phân tích nhận dạng, chúng tôi đã vận dụng kết hợp đồng thời cả hai phương pháp nói trên để xây dựng thành một phương pháp nhận dạng mới hoàn chỉnh trong xử lý số liệu địa vật lý với tên gọi “Phương pháp khoảng cách - tần suất - nhận dạng”.

III. NỘI DUNG PHƯƠNG PHÁP KHOẢNG CÁCH - TẦN SUẤT - NHẬN DẠNG

       Tương tự phương pháp tần suất - nhận dạng, phương pháp khoảng cách - tần suất - nhận dạng cũng theo 3 nội dung chính sau:

- Xây dựng ma trận thông tin của đối tượng mẫu (đối tượng chuẩn);

- Đánh giá, lựa chọn tổ hợp thông tin;

- Phân tích đối sánh, xác định các đối tượng đồng dạng.

1. Phương pháp xây dựng ma trận thông tin đối tượng mẫu

Các ma trận thông tin của đối tượng mẫu (quặng và không quặng) theo phương pháp phân tích khoảng cách khái quát dễ dàng có được trực tiếp từ số liệu địa vật lý trên các đối tượng mẫu đó. Ma trận thông tin của đối tượng mẫu trong phương pháp phân tích tần suất được xây dựng từ chính ma trận mẫu quặng (2.1) như sau:

Từ tập hợp số liệu của các chủng loại thông tin của đối tượng mẫu quặng trong phương pháp phân tích khoảng cách khái quát, xây dựng các đường cong biến phân (đường cong mật độ phân bố). Từ các đường cong biến phân xác định khoảng giá trị đặc trưng cho từng tham số. Sau khi có được các khoảng giá trị đặc trưng, dùng nó làm “cửa sổ quét” để tạo ra các đơn vị thông tin cho từng loại thông tin, nếu nó nằm trong khoảng giá trị đặc trưng sẽ nhận giá trị là 1, nằm ngoài sẽ nhận giá trị là 0. Bằng cách này sẽ chuyển được một ma trận thông tin với các số liệu địa chất, địa vật lý bất kỳ (2.1) về ma trận thông tin chuẩn theo yêu cầu của thuật toán với các phần từ là các giá trị 1 hoặc 0 (2.7).

2. Phương pháp đánh giá lựa chọn tổ hợp thông tin

Việc đánh giá lựa chọn tổ hợp thông tin được tiến hành trên cơ sở vận dụng kết hợp cả hai phương pháp theo cách như sau:

- Tiến hành phương pháp phân tích khoảng cách khái quát trên ma trận thông tin của 2 đối tượng mẫu (quặng và không quặng) xác định tập {}.

- Tiến hành phương pháp phân tích tần suất trên ma trận thông tin của đối tượng mẫu quặng. Đến đây ta không sắp xếp {} theo thứ tự giảm dần của chính nó để có tập {} mà sắp xếp nó theo thứ tự của tập {} và gọi tập mới này là {Ji}.

Tính tỷ trọng thông tin tương đối của h tính chất đầu theo tập {Ji}, ta gọi nó là Qh. Khi đó Qh được tính:

              (3.1)

Tổ hợp h tính chất đầu được lựa chọn thông qua các giá trị Qh như sau:

Xây dựng đường cong Qh theo h (trục y là Qh, trục x là h); giá trị h được xác định sao cho tại đó trị tuyệt đối đạo hàm bậc 2 của Qh theo h có giá trị lớn nhất (max) nghĩa là tại đó có sự phân chia (phân tách) rõ nhất giữa tập các thông tin độ tin cậy cao và tập các thông tin độ tin cậy thấp. Trên đường cong Qh  hoành độ h được xác định tại điểm có độ cong lớn nhất.

3. Phương pháp phân tích đối sánh xác định các đối tượng đồng dạng

Việc đối sánh các đối tượng với đối tượng mẫu để xem nó có đồng dạng với đối tượng mẫu hay không được thực hiện theo cách như sau:

- Tiến hành đánh giá lượng tin Ii cho tất cả các tính chất của đối tượng đối sánh bằng phương pháp phân tích tần suất và xác định được  tập {Ii}. Ở đây, ma trận thông tin của đối tượng đối sánh được xây dựng thông qua chính các khoảng giá trị đặc trưng của đối tượng mẫu với cách làm như đã nêu.

- Tính tỷ trọng thông tin tương đối của h tính chất đầu đã được lựa chọn ở mục 2 theo công thức (3.1) cho đối tượng đối sánh, ký hiệu là Q*h.

Đối tượng đối sánh được xem là đồng dạng với đối tượng mẫu khi Q*h ≥ Qh.

IV. XÂY DỰNG CHƯƠNG TRÌNH VÀ KẾT QUẢ ÁP DỤNG THỰC TẾ

Chúng tôi đã xây dựng chương trình xử lý trên máy tính (chương trình QKC) theo trình tự nội dung các bước của phương pháp như đã nêu.

Chương trình này cho phép xử lý đối với mọi dạng số liệu địa chất, địa vật lý bất kỳ và đã tiến hành phân tích áp dụng thực tế đối với nguồn tài liệu thực tế rất phong phú của vùng bay Tuy Hòa.

Vùng bay Tuy Hòa có tổng diện tích 7.600 km2 được bay đo từ - phổ gamma tỷ lệ 1:25.000 với gần 2000 dị thường phổ gamma được phát hiện, chia thành 120 cụm dị thường. Từ các kết quả đo vẽ tỷ lệ lớn dưới mặt đất, cũng như kết quả kiểm tra mặt đất các dị thường, ta thấy khoáng sản trong vùng khá phong phú, đáng chú ý có vàng, thiếc, wolfram, trong đó nổi bật nhất là vàng với nhiều điểm quặng đã được phát hiện. Trong số 28 cụm dị thường được lựa chọn từ 120 cụm để tiến hành kiểm tra mặt đất, có 16 cụm được đánh giá là rất có triển vọng, 12 cụm được đánh giá là ít hoặc không có triển vọng.

Chúng tôi cũng đã tiến hành phân tích bằng phương pháp khoảng cách - tần suất - nhận dạng cho toàn bộ số liệu của 120 cụm dị thường với các đối tượng mẫu quặng là các cụm trùng với các điểm quặng đã biết, các đối tượng mẫu không quặng là các cụm đã kiểm tra mặt đất và được khẳng định là hoàn toàn không có triển vọng. Đó là các cặp cụm đối tượng mẫu: - cụm 68 (bản chất K) được đánh giá tài nguyên dự báo cấp P ước khoảng 5000 kg vàng và cụm 88 (bản chất K) đối tượng không quặng; - cụm 38 (bản chất tổ hợp - K) đối tượng quặng được đánh giá có triển vọng thiếc, wolfram và cụm 55 (bản chất tổ hợp - K) đối tượng không quặng.

Với 2 cặp cụm đối tượng mẫu nói trên, đã xác định được 21 cụm đồng dạng với đối tượng quặng (13 của cụm 68 và 8 của cụm 38). Trong số 21 cụm đồng dạng được xác định có 13 cụm đã tiến hành công tác kiểm tra mặt đất, kết quả 6 cụm được đánh giá triển vọng loại 1, 6 cụm triển vọng loại 2, chỉ có 1 cụm được đánh giá ít có triển vọng (xem Bảng 1, Bảng 2).


Bảng 1. Các cụm đối tượng mẫu

Đối tượng quặng: cụm 68 (K); Đối tượng không quặng: cụm 88 (K)

STT

Số hiệu cụm đồng dạng

Cụm đã kiểm tra mặt đất

Kết quả đánh giá

1

10

*

T.V. loại 2

2

19

 

 

3

24

 

 

4

39

 

 

5

60

*

T.V. loại 2

6

66

 

 

7

74

*

T.V. loại 2

8

87

*

T.V. loại 1

9

89

*

T.V. loại 1

10

94

*

T.V. loại 1

11

95

*

T.V. loại 2

12

99

 

 

13

101

*

T.V. loại 2

Bảng 2. Các cụm đối tượng mẫu

Đối tượng quặng: cụm 38 (Th-K); Đối tượng không quặng: cụm 55 (Th-K).

STT

Số hiệu cụm đồng dạng

Cụm đã kiểm tra mặt đất

Kết quả đánh giá

1

21

 

 

2

28

*

T.V. loại 1

3

41

*

T.V. loại 1

4

52

*

T.V. loại 1

5

56

*

Ít triển vọng

6

90

 

 

7

95

*

T.V. loại 2

8

105

 

 

(Các kết quả kiểm tra đánh giá mặt đất lấy theo “Báo cáo Kết quả bay đo từ - phổ gamma tỷ lệ 1:25.000 vùng Tuy Hòa, 1996”. Lưu trữ Địa chất, Hà Nội).



V. KẾT LUẬN

Cũng như phương pháp tần suất - nhận dạng, đây là một phương pháp phân tích nhận dạng mới, được xây dựng trên cơ sở vận dụng kết hợp phương pháp phân tích khoảng cách khái quát theo thuật toán Paguonov và phương pháp tần suất theo thuật toán Griffiths-Vinni. Những kết quả phân tích thực tế trên một vùng diện tích rộng lớn với khối lượng tài liệu rất phong phú đã nói lên độ tin cậy cũng như ý nghĩa khoa học và thực tiễn của phương pháp.       Phương pháp này cùng với phương pháp tần suất - nhận dạng đã hoàn toàn có thể ứng dụng để giải quyết nhiệm vụ tìm kiếm và dự đoán triển vọng khoáng sản trong xử lý, phân tích tài liệu địa vật lý máy bay, một nguồn tài liệu đồ sộ và hết sức phong phú, nhưng chưa được khai thác triệt để ở nước ta hiện nay.

Về nguyên tắc, phương pháp này có thể mở rộng cho các dạng tài liệu địa vật lý khác nhau, cho các mục đích, đối tượng nghiên cứu khác nhau. Đây cũng là hướng nghiên cứu tiếp theo của tác giả để từng bước hoàn thiện và mở rộng hơn nữa phạm vi ứng dụng của phương pháp. Những kết quả đạt được cũng mở rộng hướng nghiên cứu mới khai thác ứng dụng lớp bài toán đánh giá lựa chọn thông tin để hoàn thiện và nâng cao hơn nữa hiệu quả của các phương pháp phân tích nhận dạng trong xử lý, phân tích tài liệu địa vật lý.

VĂN LIỆU

1. Bath M., 1974. Spectral analysis in geophysics. New York.

2. Davis J. C., 1995. Statistics and data analysis in geology. New York.

3. Đặng Mai, 2004. Toán ng dụng trong địa chất. Nxb Đại học Quốc gia Hà Nội.

4. Leveling airborne gamma-radiation data using between-channel correction information. Geophysics, 52/11.

5. Paratov G. C., 1977. Các phương pháp toán trong tìm kiếm tham dò khoáng sản. Nxb Nedra, Moskva (tiếng Nga).

6. Vo Thanh Quynh, 1996. Enhancement of effectiveness of extracting and using the information in analyzing and processing the airborne gamma – spectrometic data by using new methods. International Workshop and Exhibition on Geophysics. Hà Nội.

7. Võ Thanh Quỳnh (Chủ biên), 1996. Báo cáo Kết quả bay đo từ - phổ gamma tỷ lệ 1:25.000 vùng Tuy Hòa. Lưu trữ Địa chất. Hà Nội.

8. Võ Thanh Quỳnh, 2007. Một cách tiếp cận mới giải quyết bài toán nhận dạng trong xử lý, phân tích tài liệu địa vật lý. TC Địa chất, A/302 : 76-80. Hà Nội.