Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng

  • Hà Thị Thanh
  • Nguyễn Thị Oanh
Từ khóa: elastic search, máy tìm kiếm, tập dữ liệu.

Tóm tắt

Bài toán tìm kiếm câu hỏi tương đồng là bài toán phổ biến và quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, có rất ít nghiên cứu về bài toán này trên tập dữ liệu tiếng Việt. Nguyên nhân của hiện tượng trên là do chưa có tập dữ liệu tiếng Việt chuẩn cho bài toán tìm kiếm câu hỏi. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng. Chúng tôi xây dựng được 7911 cặp câu hỏi được gán nhãn.  Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản.

Tác giả

Hà Thị Thanh

Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên

Nguyễn Thị Oanh

Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên

điểm /   đánh giá
Phát hành ngày
2022-11-14