PHÂN LỚP CÁC QUAN ĐIỂM SỬ DỤNG MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO VĂN BẢN TIẾNG VIỆT
Tóm tắt
Bài báo này sử dụng một số phương pháp học máy khác nhau để đánh giá khả năng phân lớp quan điểm cho dữ liệu tiếng Việt. Dữ liệu này là các câu bình luận trực tuyến về lĩnh vực du lịch. Ngoài ra, thực nghiệm còn so sánh và đánh giá kết quả phân lớp quan điểm các câu bình luận khi áp dụng các kỹ thuật nâng cao ngữ nghĩa cho văn bản tiếng Việt. Dữ liệu đưa vào thực nghiệm được thu thập từ các fanpage Facebook trong lĩnh vực du lịch và các website đánh giá trực tuyến như Tripadvisor.com.vn và Foody.vn. Thực nghiệm sử dụng 4 thuật toán học máy: K-Nearest Neighbor, Support Vector Machines, Naïve Bayes và Decision Tree. Kết quả cho thấy phương pháp học máy Support Vector Machines cho kết quả phân lớp quan điểm tốt nhất khi so sánh với các phương pháp K-Nearest Neighbor, Naïve Bayes, Decision Tree. Bài báo này có giá trị đối với các ứng dụng phân lớp quan điểm trong lĩnh vực du lịch.