Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng
Từ khóa:
elastic search, máy tìm kiếm, tập dữ liệu.
Tóm tắt
Bài toán tìm kiếm câu hỏi tương đồng là bài toán phổ biến và quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, có rất ít nghiên cứu về bài toán này trên tập dữ liệu tiếng Việt. Nguyên nhân của hiện tượng trên là do chưa có tập dữ liệu tiếng Việt chuẩn cho bài toán tìm kiếm câu hỏi. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng. Chúng tôi xây dựng được 7911 cặp câu hỏi được gán nhãn. Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản.
điểm /
đánh giá
Phát hành ngày
2022-11-14
Chuyên mục
Bài viết