Ứng dụng phương pháp khoa học dữ liệu để dự báo tuổi phát triển của sâm và phân tích các yếu tố ảnh hưởng

  • Ngô Thị Thu Tình
  • Đỗ Quang Hưng
  • Nguyễn Phương Linh
Từ khóa: Tuổi phát triển của sâm (CAG), mô hình máy học (ML), mô hình tăng cường độ dốc (XGB), Khoa học dữ liệu.

Tóm tắt

Tuổi phát triển của sâm (Cultivation ages of ginseng –CAG) là yếu tốquan trọng ảnh hưởng đến chất lượng và giá thành của sâm. Những tiến bộ gần đây trong khoa học dữ liệu đã tạo ra những lợi ích to lớn cho đa dạng các ứng dụng thực tế. Trong lĩnh vực khoa học dữ liệu, học máy đóng một vai trò quan trọng để khám phá thông tin chi tiết từ dữ liệu. Nghiên cứu này dựa trên cơ sở dữ liệu thực nghiệm thu thập được nhằm xây dựng và đánh giá hiệu suất của 3 mô hình máy học: Tăng cường độ dốc cực cao -Extreme Gradient Boosting (XGB), Tăng cường độ dốc nhẹ - Light Gradient Boosting (LGB) và Tăng cường độ dốc -Gradient Boosting (GB) trong việc dự đoán CAG. Các mô hình được phát triển dựa trên 106 mẫu dữ liệu với chín tham số đầu vào và một tham số đầu ra. Kỹ thuật xác thực chéo K-lần được sử dụng để nâng cao khả năng tổng quát hóa và hiệu suất dự báo của mô hình. Quan trọng hơn, trong nghiên cứu này các mô hình máy học được tối ưu hóa để lựa chọn các siêu tham số. Hiệu suất dự báo của 3 mô hình XGB, LGB và GB sau khi tối ưu hóa tham số được so sánh để chọn ra mô hình máy học tốt nhất nhằm dự báo CAG. Kết quả cho thấy XGB là mô hình tốt nhất với hiệu suất dựđoán rất cao (R2=0,964; RMSE=0,148 năm, MAE=0,107 năm). Ngoài ra, kỹ thuật tầm quan trọng của tính năng (Feature importance) được thực hiện để đánh giá ảnh hưởng của các biến đầu vào đối với CAG dự đoán.

điểm /   đánh giá
Phát hành ngày
2022-08-24
Chuyên mục
Bài báo nghiên cứu