Efficient interpretable prediction of protein-ligand interactions using gradient boosting models and explainable AI

Thị Cẩm Mai Trương

Thị Cẩm Mai Trương

Từ khóa: Khám phá thuốc, học máy, AI có thể giải thích.

Tóm tắt

Dự đoán khả năng liên kết của các phân tử nhỏ với các mục tiêu protein là một bước quan trọng trong quá trình khám phá thuốc hiện đại, mở ra tiềm năng đẩy nhanh việc xác định các liệu pháp điều trị hiệu quả đồng thời giảm chi phí thí nghiệm. Trong nghiên cứu này, chúng tôi sử dụng bộ dữ liệu BELKA, một thư viện hóa học mã hóa bằng DNA (DEL) quy mô lớn, để huấn luyện các mô hình học máy nhằm dự đoán khả năng liên kết. Bằng cách áp dụng XGBoost, một thuật toán gradient boosting dựa trên cấu trúc cây quyết định, cùng với các bước tiền xử lý và thiết kế đặc trưng chuyên sâu, chúng tôi đã phát triển các mô hình dự đoán cho ba mục tiêu protein: BRD4, HSA, và sEH để dự đoán khả năng liên kết phân tử cho ba mục tiêu protein. Các mô hình này thể hiện năng lực dự đoán mạnh mẽ, đồng thời cho phép giải thích kết quả thông qua phân tích SHAP nhằm xác định các đặc trưng phân tử quan trọng quyết định khả năng liên kết. Đánh giá trên bộ dữ liệu kiểm tra BELKA cho thấy những thách thức trong việc khái quát hóa, cung cấp những hiểu biết quý giá về sự phức tạp của mô hình dự đoán trong khám phá thuốc. Nghiên cứu này nhấn mạnh tiềm năng của học máy trong việc thúc đẩy quá trình khám phá thuốc bằng máy tính, cho phép khám phá không gian hóa học hiệu quả hơn để tìm kiếm các liệu pháp điều trị tiềm năng.

Dự đoán hiệu quả và có thể giải thích tương tác protein-ligand sử dụng mô hình gradient boosting và AIcó thể giải thích

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS