PHÂN LOẠI NGUỒN GỐC ĐỊA LÍ NGHỆ VÀNG VIỆT NAM (CURCUMA LONGA L.) DỰA TRÊN DỮ LIỆU PHỔ UV-VIS VÀ FTIR KẾT HỢP HỌC MÁY
Tóm tắt
Một kĩ thuật đơn giản đã được phát triển để xác định nguồn gốc địa lý nghệ vàng Việt Nam (Curcuma longa L.) thông qua việc sử dụng dữ liệu phổ UV-Vis và IR kết hợp với các mô hình học máy. Các dữ liệu phổ UV-Vis và IR được đo từ 160 mẫu nghệ vàng trồng tại bốn tỉnh khác nhau của miền Bắc Việt Nam. Các dữ liệu phổ được thực hiện các thuật toán tiền xử lý SNV, Savitzky-Golay, SPA để giảm các yếu tố ảnh hưởng do phép đo và làm giảm chiều của ma trận tín hiệu, sau đó phát triển các mô hình học máy có giám sát và không giám sát để xác định nguồn gốc địa lý. Kết quả cho thấy, các mô hình học máy có giám sát cho khả năng phân loại tốt: mô hình phân tích phân biệt tuyến tính (LDA) đạt độ chính xác phân loại cao nhất với cả hai bộ dữ liệu UV-Vis và IR lần lượt 97,92% và 95,83%. Mô hình SVM-LDA cũng cho kết quả khả quan với độ chính xác tương ứng 95,83% và 93,75%. Kết quả của nghiên cứu này mở ra triển vọng ứng dụng dữ liệu phổ kết hợp với học máy trong việc truy xuất nguồn gốc dược liệu tại Việt Nam.