Phân loại nội dung tài liệu Web tiếng Việt

Trần  Ngọc Phúc; Phạm  Trần Vũ; Phạm  Công Xuyên; Nguyễn  Vũ Duy Quang

Trần Ngọc Phúc
Phạm Trần Vũ
Phạm Công Xuyên
Nguyễn Vũ Duy Quang

Tóm tắt

Bài báo trình bày một số kết quả nghiên cứu, ứng dụng thuật toán Latent Dirichlet Allocation (LDA) phân tích chủ đề ẩn, để tìm tập đặc trưng cho các chủ đề áp dụng cho bài toán phân loại nội dung tài liệu web. Trong bài báo này các cụm danh từ được sử dụng để làm đặc trưng văn bản trong mô hình vector. Các bước thực hiện bao gồm thuật toán tách từ, gán nhãn từ loại để rút trích ra các cụm danh từ. Sửdụng phương pháp đếm tần suất từ và độ đo sự tương đồng cosine để tiến hành phân loại. Thuật toán Latent Dirichlet Allocation được sử dụng để tìm tập đặc trưng cho các chủ đề mà không cần quan tâm đến tần số xuất hiện, độ quan trọng của từ mà vẫn đưa ra bộ dữ liệu đầy đủ và chính xác. Kết quả đã cài đặt thử nghiệm vào bài toán phân lớp các tin tức phổ biến trên các trang báo tiếng Việt với độ chính xác khoảng 90% đáp ứng được mục tiêu phân loại đề ra.

Phân loại nội dung tài liệu Web tiếng Việt

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS