Nâng cao hiệu quả phân lớp dữ liệu không cân bằng sử dụng kỹ thuật tăng mẫu thiểu số và đặc trưng của mỗi cụm

Dũng Lê; Phan Anh Phong, Lê Văn Thành

Dũng Lê
Phan Anh Phong, Lê Văn Thành

Từ khóa: Phân lớp dữ liệu; dữ liệu không cân bằng; oversampling; K-Means; SMOTE.

Tóm tắt

Bài báo đề xuất một phương pháp để nâng cao hiệu quả phân lớp dữ liệu không cân bằng. Đóng góp chính của phương pháp là kết hợp thuật toán phân cụm K-means và kỹ thuật sinh mẫu thiểu số VCIR để tạo ra các mẫu nhân tạo có tính đại diện sát với đặc trưng của dữ liệu thực tế. Các kết quả thực nghiệm đã chỉ ra rằng phương pháp đề xuất đạt hiệu quả cao hơn trên một số độ đo so với các phương pháp xử lý dữ liệu không cân bằng phổ biến hiện nay như SMOTE, Borderline-SMOTE, Kmeans-SMOTE và SVM-SMOTE.

Nâng cao hiệu quả phân lớp dữ liệu không cân bằng sử dụng kỹ thuật tăng mẫu thiểu số và đặc trưng của mỗi cụm

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS