ĐÁNH GIÁ ẢNH HƯỞNG CỦA TỶ LỆ TẬP DỮ LIỆU HUẤN LUYỆN/ KIỂM TRA ĐẾN ĐỘ CHÍNH XÁC CỦA DỰ BÁO CÔNG SUẤT PHÁT ĐIỆN MẶT TRỜI
Abstract
Trong bài toán dự báo công suất phát của điện mặt trời, các thuật toán máy học dựa trên việc huấn luyện các tập dữ liệu quá khứ đã trở nên rất phổ biến.
Một trong những yếu tố ảnh hưởng đáng kể đến hiệu suất của các mô hình dự báo là tỷ lệ phân chia tập dữ liệu huấn luyện và kiểm tra. Tỷ lệ không phù hợp có
thể dẫn đến hiện tượng underfitting hoặc overfitting, làm suy giảm khả năng tổng quát hóa của mô hình. Trong nghiên cứu này, nhóm tác giả xây dựng mô hình
Random Forest để dự báo công suất phát điện mặt trời và đánh giá hiệu suất mô hình với các tỷ lệ huấn luyện/kiểm tra khác nhau, từ 50/50 đến 90/10. Hai tập
dữ liệu kiểm tra được thiết kế: một tập gồm các ngày có bức xạ biến động mạnh nhất, và một tập kết hợp cả các ngày có bức xạ ổn định nhất. Kết quả cho thấy,
hiệu suất mô hình cải thiện rõ rệt khi tăng tỷ lệ dữ liệu huấn luyện. Tại tỷ lệ 90/10, mô hình đạt sai số MAPE thấp nhất (19,92%) trên tập kiểm tra tổng hợp.
Ngoài ra, nghiên cứu cũng chỉ ra rằng MAPE là chỉ số nhạy cảm với dữ liệu công suất nhỏ, nên cần được đánh giá song song với RMSE và NMAPE để có đánh giá
toàn diện. Nghiên cứu cung cấp cơ sở thực nghiệm quan trọng cho việc lựa chọn tỷ lệ huấn luyện phù hợp trong các bài toán dự báo công suất điện mặt trời.