KIẾN TRÚC PHÂN TÁN ĐỀ XUẤT CHO TÌM KIẾM NGỮ NGHĨA TRÊN TẬP DỮ LIỆU LỚN VỀ TIN TỨC HACK
Tóm tắt
Bài báo đề xuất một kiến trúc phân tán hiệu quả để xử lý bài toán tìm kiếm ngữ nghĩa quy mô lớn. Nhóm tác giả tích hợp mô hình mạng học sâu cho phép xếp hạng lại trong hệ thống tìm kiếm để cải thiện độ chính xác của kết quả. Với cách tiếp cận của nhóm tác giả, các tập dữ liệu lớn có thể được chia thành các cụm nhỏ hơn. Phương pháp này làm giảm đáng kể thời gian xử lý chỉ mục. Bộ dữ liệu tin tức hack hơn 300 nghìn bản ghi được sử dụng để đánh giá kỹ thuật phân tán được đề xuất. Một so sánh giữa mô hình mạng học sâu và phương pháp tổng hợp xếp hạng đối ứng thông thường (RRF) để hợp nhất các kết quả tìm kiếm từ các cụm được cung cấp. Ngoài ra, nhóm tác giả so sánh phương pháp đề xuất với kiến trúc tập trung. Các thử nghiệm đã được thực hiện trên số lượng cụm khác nhau và đưa ra đánh giá kỹ lưỡng về độ chính xác cũng như thời gian xử lý của kiến trúc được đề xuất của chúng tôi. Kết quả cho thấy về mặt xử lý lập chỉ mục và độ chính xác, kỹ thuật phân tán của chúng tôi vượt trội hơn kiến trúc tập trung tiêu chuẩn và mô hình học sâu được tích hợp hoạt động hiệu quả hơn phương pháp RRF trên mọi cấu hình.