SMOTE‑ENSEMBLE: TỔNG QUAN KỸ THUẬT CÂN BẰNG DỮ LIỆU VÀ MÔ HÌNH HỌC MÁY KẾT HỢP TRONG DỰ ĐOÁN SỚM BIẾN CHỨNG VÕNG MẠC ĐÁI THÁO ĐƯỜNG

  • Hà Ngọc Tuân
  • Phạm Thị Ánh Hương
  • Trần Thị Thu Huyền
  • Ngô Thị Lan Anh

Abstract

Bệnh lý thoái hóa võng mạc xuất phát từ rối loạn đường huyết kéo dài (Diabetic Retinopathy - DR) hiện đang là mối đe dọa hàng đầu đối với khả năng nhìn của con người trên phạm vi toàn thế giới. Điểm đặc thù của căn bệnh này nằm ở chỗ các tổn thương ban đầu diễn ra hoàn toàn âm thầm, khiến người bệnh không hề hay biết cho đến khi mức độ hủy hoại đã vượt ngưỡng có thể cứu vãn. Khi triển khai các hệ thống rà soát hình ảnh đáy mắt trên diện rộng, một rào cản kỹ thuật nổi bật xuất hiện: trong mọi tập dữ liệu thu thập được, những trường hợp bệnh nặng đòi hỏi xử lý cấp bách luôn chiếm số lượng cực kỳ khiêm tốn so với các mẫu bình thường hoặc nhẹ. Công trình này giới thiệu một chiến lược phương pháp luận kết hợp giữa kỹ thuật tạo mẫu tổng hợp SMOTE và kiến trúc học máy tập thể (SMOTE-Ensemble) phục vụ mục đích thiết lập cơ chế nhận diện nguy cơ từ sớm. Trước tiên, chúng tôi mổ xẻ bản chất sinh lý bệnh học của DR song song với việc khảo sát cấu trúc phân bố dữ liệu, qua đó làm sáng tỏ ảnh hưởng bất lợi của hiện tượng chênh lệch tỷ lệ giữa các nhóm đối với khả năng phát hiện đúng của bộ phân loại. Kế tiếp, bài viết phân tích sâu thuật toán SMOTE gốc cùng các phiên bản nâng cấp như Borderline-SMOTE, ADASYN, Geometric SMOTE - những công cụ cho phép sản sinh ra các điểm dữ liệu nhân tạo một cách có chủ đích [1]. Ngoài ra, các chiến lược học tập thể bao gồm Bagging, Boosting, Voting, Stacking cũng được đặt dưới góc nhìn phân tích, đặc biệt nhấn mạnh vào SMOTEBoost và những cải tiến mới nhất. Bằng việc tổng hợp hơn 30 nghiên cứu đã công bố, chúng tôi chứng minh rằng phương thức SMOTE-Ensemble đem lại mức tăng từ 5 tới 18 điểm phần trăm trên các thang đo AUC, F1-score, recall cho phân nhóm bệnh nghiêm trọng [2]. Phần kết của nghiên cứu đề cập những khiếm khuyết còn tồn đọng, đồng thời vạch ra các con đường nghiên cứu tương lai như tích hợp mạng đối kháng sinh (GAN) nhằm làm giàu dữ liệu hình ảnh, học đa nhiệm vụ, hay xây dựng các kiến trúc mô hình có năng lực giải trình cao phục vụ việc đưa công nghệ vào ứng dụng thực tế tại cơ sở y tế.

điểm /   đánh giá
Published
2025-12-08