RỪNG NGẪU NHIÊN XÁC SUẤT VÀ KHẢ NĂNG MÔ HÌNH HÓA SỰ BẤT ĐỊNH TRONG HỌC MÁY

PROBABILISTIC RANDOM FOREST AND ITS ROLE IN MODELING UNCERTAINTY IN MACHINE LEARNING

  • Huỳnh Phú Sĩ

Abstract

Dữ liệu thực tế thường chứa độ bất định do nhiễu đo lường, gán nhãn không nhất quán hoặc thiếu thông tin, làm giảm đáng kể hiệu suất và độ tin cậy của các mô hình học máy truyền thống. Để giải quyết hạn chế này, thuật toán Rừng ngẫu nhiên xác suất (Probabilistic Random Forest – PRF) ra đời như một mở rộng mạnh mẽ của Rừng ngẫu nhiên truyền thống, cho phép tích hợp trực tiếp phân phối xác suất vào kiến trúc cây quyết định. PRF mô hình hóa đặc trưng đầu vào dưới dạng hàm mật độ xác suất (PDF) và nhãn đầu ra dưới dạng hàm khối lượng xác suất (PMF), qua đó duy trì và khai thác thông tin bất định xuyên suốt quá trình lan truyền và phân lớp, từ đó nâng cao độ chính xác và khả năng giải thích. Bài báo này trình bày chi tiết cơ chế hoạt động và các nguyên lý toán học của PRF, bao gồm cơ chế lan truyền xác suất theo từng nút, hàm chi phí kỳ vọng dựa trên Gini impurity mở rộng để tối ưu hóa việc chia nhánh, và phương pháp tổng hợp kết quả dự đoán thông qua bỏ phiếu mềm. Điểm mới quan trọng mà bài báo nhấn mạnh là khả năng PRF cung cấp kết quả dự đoán dưới dạng một phân phối xác suất đầy đủ thay vì một nhãn duy nhất, qua đó cho phép lượng hóa trực tiếp độ tin cậy của dự đoán.

ABSTRACT

Real-world data often contain uncertainty caused by measurement noise, inconsistent labeling, or incomplete information, which significantly degrades the performance and reliability of traditional machine learning models. To address this limitation, the Probabilistic Random Forest (PRF) has been proposed as a powerful extension of the conventional Random Forest, allowing probability distributions to be directly integrated into the structure of decision trees. PRF models input features as probability density functions (PDFs) and output labels as probability mass functions (PMFs), thereby preserving and utilizing uncertainty information throughout the propagation and classification process - enhancing both predictive accuracy and interpretability. This paper provides a detailed presentation of the mathematical principles underlying PRF, including the probabilistic propagation mechanism at each node, an expected cost function based on an extended Gini impurity for optimal splitting, and a soft voting method for prediction aggregation. The key contribution highlighted in this study is PRF’s ability to produce probabilistic output distributions rather than single-label predictions, enabling direct quantification of prediction confidence.

điểm /   đánh giá
Published
2025-12-28