EVALUATING THE PERFORMANCE OF MACHINE LEARNING MODELS IN CARDIOVASCULAR RISK PREDICTION

Dương Thu Hằng; Phạm Duy Phong

Dương Thu Hằng
Phạm Duy Phong

Từ khóa: Bệnh tim mạch; Phát hiện bệnh tim; Học máy; So sánh mô hình; XGBoost; Dự đoán y học

Tóm tắt

Các bệnh tim mạch (CVD) là một trong những nguyên nhân hàng đầu gây ra bệnh tật và tử vong trên toàn thế giới, do đó việc dự đoán chính xác nguy cơ mắc bệnh tim mạch là rất quan trọng cho công tác phòng ngừa và điều trị hiệu quả. Nghiên cứu này nhằm đánh giá hiệu quả của một số thuật toán học máy có giám sát trong việc dự đoán nguy cơ mắc bệnh tim mạch dựa trên bộ dữ liệu gồm các đặc trưng lâm sàng và nhân khẩu học. Sáu mô hình phổ biến được sử dụng — Random Forest, XGBoost, Logistic Regression, Support Vector Classifier (SVC), K-Nearest Neighbors (KNN), và Decision Tree — được kiểm tra dựa trên khả năng dự đoán rủi ro và các chỉ số đánh giá quan trọng như độ chính xác, độ chính xác truy xuất (precision), độ bao phủ (recall), điểm F1 và đường cong ROC (AUC). Dữ liệu được xử lý trước bằng các kỹ thuật chuẩn hóa và biến đổi, chẳng hạn như chuyển đổi phân vị (Quantile Transformation) và chuẩn hóa chuẩn (Standard Scaling), nhằm đảm bảo hiệu suất tối ưu cho mô hình. Kết quả đưa ra so sánh chi tiết hiệu suất của các mô hình, qua đó thể hiện điểm mạnh và hạn chế của từng mô hình trong dự đoán nguy cơ mắc bệnh tim mạch. Phát hiện của nghiên cứu nhấn mạnh các mô hình có hiệu suất tốt nhất trong việc xác định các cá nhân có nguy cơ cao, từ đó hỗ trợ các chuyên gia y tế ưu tiên can thiệp sớm. Nghiên cứu cũng thảo luận về vai trò rộng lớn hơn của học máy trong y tế, đặc biệt là trong dự đoán và phòng ngừa bệnh tật

EVALUATING THE PERFORMANCE OF MACHINE LEARNING MODELS IN CARDIOVASCULAR RISK PREDICTION

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS