SO SÁNH ĐỘ TƯƠNG ĐỒNG CÂU HỎI TRONG DIỄN ĐÀN
Tóm tắt
Nghiên cứu này nhằm xây dựng hệ thống so sánh độ tương đồng giữa các câu hỏi trên các diễn đàn trực tuyến, sử dụng mô hình PhoBERT kết hợp với các phương pháp xử lý ngôn ngữ tự nhiên. Mục đích là cải thiện khả năng nhận diện câu hỏi tương đồng, từ đó tự động đề xuất câu trả lời thích hợp và nhanh chóng. Phương pháp nghiên cứu bao gồm thu thập dữ liệu từ các diễn đàn, confession của sinh viên và fanpage, xử lý dữ liệu bằng các bước như loại bỏ trùng lặp, chuẩn hóa văn bản và tách từ (tokenization). Mô hình được huấn luyện trên bộ dữ liệu tiếng Việt gồm 31.201 cặp câu hỏi. Sau đó, mô hình PhoBERT được áp dụng để phân loại các câu hỏi tương đồng. Kết quả cho thấy hệ thống đạt độ chính xác 82,98%, vượt trội hơn so với phương pháp truyền thống như TF-IDF. Để ứng dụng trong thực tế, hệ thống còn tích hợp thư viện FAISS nhằm cho phép tìm kiếm tương đồng hiệu quả và nhanh chóng. Hệ thống không chỉ hiệu quả trong việc so sánh câu hỏi mà còn có thể áp dụng trong các nền tảng hỏi đáp trực tuyến hoặc hỗ trợ khách hàng, mở ra cơ hội ứng dụng trong nhiều lĩnh vực khác.