SO SÁNH ĐỘ TƯƠNG ĐỒNG CÂU HỎI TRONG DIỄN ĐÀN

Võ Trần Tiến, Lương Trần Ngọc Khiêt, Nguyễn Phương Nam, Huỳnh Thị Tường Vi, Nguyễn Huỳnh Phúc Khang, Phan Thị Nam Anh, Lương Trần Hy Hiến

Võ Trần Tiến, Lương Trần Ngọc Khiêt, Nguyễn Phương Nam, Huỳnh Thị Tường Vi, Nguyễn Huỳnh Phúc Khang, Phan Thị Nam Anh, Lương Trần Hy Hiến

Từ khóa: PhoBERT; Câu hỏi tương đồng; Phương pháp xử lý ngôn ngữ tự nhiên; Diễn đàn; Trích xuất văn bản

Tóm tắt

Nghiên cứu này nhằm xây dựng hệ thống so sánh độ tương đồng giữa các câu hỏi trên các diễn đàn trực tuyến, sử dụng mô hình PhoBERT kết hợp với các phương pháp xử lý ngôn ngữ tự nhiên. Mục đích là cải thiện khả năng nhận diện câu hỏi tương đồng, từ đó tự động đề xuất câu trả lời thích hợp và nhanh chóng. Phương pháp nghiên cứu bao gồm thu thập dữ liệu từ các diễn đàn, confession của sinh viên và fanpage, xử lý dữ liệu bằng các bước như loại bỏ trùng lặp, chuẩn hóa văn bản và tách từ (tokenization). Mô hình được huấn luyện trên bộ dữ liệu tiếng Việt gồm 31.201 cặp câu hỏi. Sau đó, mô hình PhoBERT được áp dụng để phân loại các câu hỏi tương đồng. Kết quả cho thấy hệ thống đạt độ chính xác 82,98%, vượt trội hơn so với phương pháp truyền thống như TF-IDF. Để ứng dụng trong thực tế, hệ thống còn tích hợp thư viện FAISS nhằm cho phép tìm kiếm tương đồng hiệu quả và nhanh chóng. Hệ thống không chỉ hiệu quả trong việc so sánh câu hỏi mà còn có thể áp dụng trong các nền tảng hỏi đáp trực tuyến hoặc hỗ trợ khách hàng, mở ra cơ hội ứng dụng trong nhiều lĩnh vực khác.

SO SÁNH ĐỘ TƯƠNG ĐỒNG CÂU HỎI TRONG DIỄN ĐÀN

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS