Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản Tiếng Việt có xem xét ngữ nghĩa

  • Đỗ Phúc

Tóm tắt

Bài báo trình bày một số kết quả nghiên cứu ứng dụng các thuật toán tìm tập phổ biến và luật kết hợp vào bài toán phân lớp văn bản. Mô hình vector có thành phần là các cụm danh từ phổ biến được dùng để đặc trưng văn bản. Thuật toán tách từ, gán nhãn từ loại được sử dụng để rút trích các cụm danh từ. Thuật toán tập phổ biến và luật kết hợp được sử dụng để tạo đồ thị đồng hiện các từ trong ngữ cảnh nhất định nhằm xác lập nghĩa của từ trong văn bản và kết hợp với từ điển đồng nghĩa, gần nghĩa để điều chỉnh thành phần của vector văn bản nhằm nâng cao khả năng phân lớp văn bản có xem xét ngữ nghĩa. Ngoài ra, luật kết hợp có vế phải là các thuộc tính phân lớp sẽ được sử dụng để làm luật phân lớp. Chúng tôi đã thử nghiệm giải pháp đề xuất vào bài toán phân lớp các tóm tắt bài báo khoa học trong lĩnh vực CNTT tiếng Việt

điểm /   đánh giá
Phát hành ngày
2017-06-08
Chuyên mục
BÀI BÁO