MÔ HÌNH CHẨN ĐOÁN BỆNH COVID-19 TỪ DỮ LIỆU LÂM SÀNG BẰNG PHƯƠNG PHÁP XGBOOST

  • Dương Thị Kim Chi
Từ khóa: COVID-19, diagnostic model, machine learning, XGBoost

Tóm tắt

  1. Dữ liệu lâm sàng là các kết quả từ xét nghiệm công thức máu, xét nghiệm nước tiểu, đây cũng là phương thức y tế được thực hiện rất phổ biến trong quá trình thăm khám, điều trị và theo dõi bệnh tật. Đối với bác sĩ trực tiếp điều trị, kết quả xét nghiệm cận lâm sàng được xem là cách thức hỗ trợ đắc lực, nhất là trong các bệnh cảnh triệu chứng cơ năng, triệu chứng của bệnh nhân không rõ ràng hoặc không đặc hiệu. Hiện nay bệnh COVID-19 cũng là một dạng bệnh không triệu chứng hoặc triệu chứng không rõ ràng dễ gây nhầm lẫm với các cúm hay số xuất huyết. Sử dụng phương pháp học máy hiện đại để hỗ trợ cho quá trình chẩn đoán sàn lọc bệnh truyền nhiễm từ các mẫu dữ liệu lâm sàng sẽ giúp việc xác định bệnh nhanh chóng, chính xác có thể áp dụng đồng thời cho số lượng mẫu lớn. Điều này đã làm cho quá trình sàng lọc bệnh diễn ra nhanh, chính xác và tiết kiệm kinh phí điều trị. Nghiên cứu này đề xuất mô hình tự động xử lý dữ liệu lâm sàn và kết hợp mô hình phân loại Gradient Boosting để dự đoán bệnh COVID-19, mô hình đề xuất có thể học trực tiếp từ dữ liệu thô là kết quả của xét nghiệm lâm sàn mà không cần phải xóa bỏ dữ liệu trống. Mô hình đề xuất từ nghiên cứu này bao gồm hai giai đoạn: giai đoạn đầu sẽ đánh giá, xử lý dữ liệu; giai đoạn hai sẽ xây dựng mô hình phân loại bệnh dựa trên phương pháp XGBoost (Extreme Gradient Boosting). Để xây dựng mô hình thành công, nghiên cứu được thực hiện dựa trên bộ dữ liệu từ bệnh viện Israelita Albert Einstein ở Brazil đây là bộ dữ liệu do Teich tổng hợp từ các các bệnh nhân nhập viện tháng 4 đến tháng 5 năm 2020 và được xuất bản công khai trên tạp chí einstein_journal. Các kết quả từ nghiên cứu này cho thấy việc kết hợp kỹ thuật xử lý dữ liệu tự động và mô hình XGBoost tạo ra bộ phân loại bệnh COVID-19 từ dữ liệu lâm sàng có kết quả tốt và hiệu suất thu được từ mô hình là vượt trội hơn so với các nghiên cứu cùng chủ đề trên cùng bô dữ liệu, với chính xác tổng thể đạt trên 0,998. Để khẳng định tính chính xác cũng như hiệu năng của mô hình đề xuất đã tiến hành so sánh với nghiên cứu của các tác giả khác cho cùng chức năng dự đoán, nhận thấy mô hình cho kết quả tốt hơn về độ chính xác độ nhạy Recall, Độ đặc hiệu (Specificity), F1 score, ROC, Các kết quả đều đạt ở mức là 0,99. Trong tương lai, mô hình từ nghiên cứu này sẽ giúp cho việc chẩn đoán bệnh của bệnh nhân trở đơn giản và chính xác. Đồng thời nó sẽ giúp hệ thống y tế tự động chẩn đoán bệnh mang lại nhiều cơ hội chữa bệnh kịp thời cho bệnh nhân và hỗ trợ ngăn chặn bùng phát dịch bệnh.
điểm /   đánh giá
Phát hành ngày
2023-06-15
Chuyên mục
Bài viết