ỨNG DỤNG NGÔN NGỮ PYTHON VÀ ĐÁNH GIÁ CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÂN TÍCH DỰ ĐOÁN BÉO PHÌ DỰA TRÊN CHỈ SỐ NHÂN TRẮC HỌC

  • Đinh Tuấn Long
  • Nguyễn Thị Tú Lan
  • Trần Thùy Ninh
Từ khóa: dự đoán béo phì, khai phá dữ liệu, ngôn ngữ lập trình python, phương pháp bayesian, mô hình LightGBM, mô hình Random Forest, mô hình MLP

Tóm tắt

Trong bối cảnh tỷ lệ béo phì gia tăng nhanh chóng tại Việt Nam (tăng 38% trong giai đoạn 2010-2014) và trên toàn cầu, việc áp dụng các phương pháp khoa học dữ liệu tiên tiến mang lại tiềm năng đáng kể trong việc cải thiện độ chính xác chẩn đoán và chiến lược can thiệp cá nhân hóa. Nghiên cứu của chúng tôi hướng tới việc triển khai các mô hình học máy phân tích các dữ liệu y tế để dự đoán nguy cơ mắc bệnh béo phì, kết hợp với việc sử dụng các thư viện của ngôn ngữ lập trình Python trên năm lĩnh vực chức năng: xử lý dữ liệu (Pandas, Dask), tính toán số học (NumPy, SymPy), trực quan hóa (Matplotlib, Seaborn, Plotly), học máy (Scikit-learn, TensorFlow, PyTorch) và phân tích thống kê (Statsmodels, SciPy). Sử dụng bộ dữ liệu đa quốc gia (n=33.610) gồm 17 biến nhân trắc học và lối sống, chúng tôi đã phát triển và tối ưu hóa nhiều mô hình phân loại thông qua phương pháp tối ưu hóa Bayesian. Kết quả cho thấy thuật toán LightGBM đạt hiệu suất vượt trội (độ chính xác=93,07%, F1-score=92,48%, PR-AUC=96,30%), vượt trội đáng kể so với mô hình Random Forest (độ chính xác=92,25%) và Multi-Layer Perceptron (độ chính xác=89,05%). Việc triển khai các công cụ này đã tạo điều kiện cho việc phát triển hệ thống tích hợp cung cấp khuyến nghị sức khỏe cá nhân hóa dựa trên mức độ rủi ro béo phì dự đoán. Nghiên cứu này đóng góp vào cả sự tiến bộ về phương pháp phân tích dữ liệu sức khỏe và ứng dụng thực tiễn trong phòng chống béo phì thông qua can thiệp cá nhân hóa dựa trên công nghệ.

điểm /   đánh giá
Phát hành ngày
2025-08-04
Chuyên mục
Bài viết