Đánh giá tác động của việc điều chỉnh siêu tham số đối với hiệu năng của các mô hình học máy truyền thống

Hồ Lê Viết Nin; Phan Long; Phạm Phú Khương; Ngô Văn Hiếu; Nguyễn Tấn Quốc; Trịnh Quang Tin

Hồ Lê Viết Nin
Phan Long
Phạm Phú Khương
Ngô Văn Hiếu
Nguyễn Tấn Quốc
Trịnh Quang Tin

Từ khóa: AST;, Bayesian optimization;, điều chỉnh siêu tham số;, học máy;, XGBoost

Tóm tắt

Trong học máy, việc lựa chọn mô hình phân loại cùng chiến lược điều chỉnh siêu tham số phù hợp đóng vai trò quan trọng trong việc nâng cao hiệu năng dự đoán. Bài báo này đề xuất một quy trình thực nghiệm nhằm đánh giá hiệu năng của ba mô hình học máy truyền thống gồm SVM, Random Forest và XGBoost, kết hợp với ba chiến lược điều chỉnh siêu tham số là Grid Search, Random Search và Bayesian optimization. Dữ liệu được biểu diễn thông qua ba loại đặc trưng: TF-IDF, AST và sự kết hợp của cả hai. Mỗi cấu hình mô hình được huấn luyện lặp lại 50 lần nhằm đảm bảo độ tin cậy thống kê. Hiệu năng được đánh giá dựa trên hai chỉ số chính là F1-score và ROC AUC. Kết quả thực nghiệm cho thấy mô hình XGBoost với đặc trưng kết hợp và điều chỉnh bằng Bayesian optimization đạt hiệu năng cao nhất, với F1-score đạt 92.0% và ROC AUC đạt 94.7%, tăng lần lượt 2.1% và 1.3% so với thiết lập mặc định. Phân tích chi tiết cho thấy mối liên hệ chặt chẽ giữa cách biểu diễn đặc trưng, thuật toán phân loại và chiến lược điều chỉnh, từ đó đưa ra các khuyến nghị thực tiễn cho việc lựa chọn mô hình trong các bài toán phân loại.

Đánh giá tác động của việc điều chỉnh siêu tham số đối với hiệu năng của các mô hình học máy truyền thống

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS