A PROPOSED DISTRIBUTED ARCHITECTURE FOR SEARCHING SEMANTICALLY ON A LARGE DATASET OF HACKING NEWS

Đỗ Ngọc Long; Nguyễn Thế Hùng; Nguyễn Trung Dũng; Lê Xuân Đức; Nguyễn Chí Thành; Nguyễn Quốc Khánh; Nguyễn Quốc Khánh

Đỗ Ngọc Long Institute 486, Command 86
Nguyễn Thế Hùng Institute 486, Command 86
Nguyễn Trung Dũng Institute 486, Command 86
Lê Xuân Đức Institute 486, Command 86
Nguyễn Chí Thành Institute of Information Technology and Electronics, Academy of Military Science and Technology
Nguyễn Quốc Khánh Institute of Information and Communication Technology, Le Quy Don Technical University
Nguyễn Quốc Khánh Institute of Information and Communication Technology, Le Quy Don Technical University

Từ khóa: Hệ thống phân tán, tìm kiếm ngữ nghĩa, mô hình ngôn ngữ lớn, xử lý ngôn ngữ tự nhiên, tin tức hack

Tóm tắt

Bài báo đề xuất một kiến trúc phân tán hiệu quả để xử lý bài toán tìm kiếm ngữ nghĩa quy mô lớn. Nhóm tác giả tích hợp mô hình mạng học sâu cho phép xếp hạng lại trong hệ thống tìm kiếm để cải thiện độ chính xác của kết quả. Với cách tiếp cận của nhóm tác giả, các tập dữ liệu lớn có thể được chia thành các cụm nhỏ hơn. Phương pháp này làm giảm đáng kể thời gian xử lý chỉ mục. Bộ dữ liệu tin tức hack hơn 300 nghìn bản ghi được sử dụng để đánh giá kỹ thuật phân tán được đề xuất. Một so sánh giữa mô hình mạng học sâu và phương pháp tổng hợp xếp hạng đối ứng thông thường (RRF) để hợp nhất các kết quả tìm kiếm từ các cụm được cung cấp. Ngoài ra, nhóm tác giả so sánh phương pháp đề xuất với kiến trúc tập trung. Các thử nghiệm đã được thực hiện trên số lượng cụm khác nhau và đưa ra đánh giá kỹ lưỡng về độ chính xác cũng như thời gian xử lý của kiến trúc được đề xuất của chúng tôi. Kết quả cho thấy về mặt xử lý lập chỉ mục và độ chính xác, kỹ thuật phân tán của chúng tôi vượt trội hơn kiến trúc tập trung tiêu chuẩn và mô hình học sâu được tích hợp hoạt động hiệu quả hơn phương pháp RRF trên mọi cấu hình.

KIẾN TRÚC PHÂN TÁN ĐỀ XUẤT CHO TÌM KIẾM NGỮ NGHĨA TRÊN TẬP DỮ LIỆU LỚN VỀ TIN TỨC HACK

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS