APPLICATION OF PCA AND LDA METHODS FOR HANSEN PARAMETERS IN PREDICTION OF BITUMEN SOLUBILITY IN DIFFERENT SOLVENTS

  • Nguyễn Tuệ Anh
  • Ngô Thanh An
Keywords: PCA method (Principle Component Analysis) was used to preprocess Hansen solubility parameters of bitumen in 48 different solvents, aiming to eliminate multicollinearities between variables as well as to ensure the homoscedasticity of the data. After preprocessing, the data were analyzed by LDA (Linear Discriminant Analysis) to determine a classification model for the predicting solubility of bitumen. Both methods: random split data and cross-validation were used to evaluate the predictive efficiency of the model. The results showed that, when using the random split data method (ratio 70:30), quantities such as accuracy, precision and recall were changed between program executions, while, in the case of cross-validation, these quantities were not. When cross-validating with the CV parameter (number of cross validations) equaled to 8, the model’s accuracy, precision and recall of the model were 75, 80.2 and 68.75%, respectively. In addition, the results of LDA analysis for raw data sources, centered and normalized data, and PCA-processed data, when cross-validated at the CV of 8, presented that the evaluation performance of the model was all the same.

Abstract

Phương pháp PCA (Principle Component Analysis) đã được sử dụng để tiền xử lý dữ liệu tham số độ tan Hansen của bitumen trong 48 loại dung môi khác nhau, nhằm mục đích loại bỏ các hiện tượng đa cộng tuyến giữa các biến số cũng như đảm bảo tính đồng nhất phương sai của dữ liệu trước khi tiến hành phân tích LDA (Linear Discriminant Analysis). Sau khi tiền xử lý, dữ liệu được tiến hành phân tích LDA để xác định mô hình dự đoán và phân loại nhằm phục vụ cho bài toán xác định độ tan của bitumen. Để đánh giá hiệu quả dự đoán của mô hình, cả hai phương pháp: phân chia dữ liệu ngẫu nhiên và xác thực chéo đã được sử dụng. Kết quả cho thấy, khi sử dụng phương pháp phân chia dữ liệu ngẫu nhiên (tỷ lệ 70:30), các đại lượng như độ chính xác, độ lặp và độ nhạy đều thay đổi giữa các lần thực thi chương trình, trong khi, đối với xác thực chéo, các đại lượng này không bị thay đổi. Khi xác thực chéo với tham số CV (số lần xác thực chéo) bằng 8, độ chính xác, độ lặp và độ nhạy của mô hình lần lượt là 75, 80,2 và 68,75%. Ngoài ra, kết quả phân tích LDA cho các nguồn dữ liệu thô (chưa qua tiền xử lý), dữ liệu đã được quy tâm và chuẩn hóa, và dữ liệu đã qua xử lý PCA khi xác thực chéo ở CV bằng 8 đều cho các kết quả đánh giá hiệu quả của mô hình đều giống nhau

điểm /   đánh giá
Published
2022-10-19