Phân loại nội dung tài liệu Web tiếng Việt

  • Trần Ngọc Phúc
  • Phạm Trần Vũ
  • Phạm Công Xuyên
  • Nguyễn Vũ Duy Quang

Tóm tắt

Bài báo trình bày một số kết quả nghiên cứu, ứng dụng thuật toán Latent Dirichlet  Allocation (LDA) phân tích chủ đề ẩn, để tìm tập đặc trưng cho các chủ đề áp dụng cho bài toán phân loại nội dung tài liệu web. Trong bài báo này các cụm danh từ  được sử dụng để làm đặc trưng văn bản trong mô hình vector. Các bước thực hiện bao gồm thuật toán tách từ, gán nhãn từ loại  để rút trích ra các cụm danh từ. Sửdụng phương pháp đếm tần suất từ và độ đo sự tương đồng cosine để tiến hành phân loại. Thuật toán Latent Dirichlet Allocation được sử dụng để tìm tập đặc trưng cho các chủ đề mà không cần quan tâm đến tần số xuất hiện, độ quan trọng của từ mà vẫn đưa ra bộ dữ liệu đầy đủ và chính xác. Kết quả đã cài đặt thử nghiệm vào bài toán phân lớp các tin tức phổ biến trên các trang báo tiếng Việt với  độ chính xác khoảng 90% đáp ứng được mục tiêu phân loại đề ra.

điểm /   đánh giá
Phát hành ngày
2016-01-18
Chuyên mục
Articles