TĂNG CƯỜNG NĂNG LỰC KIỂM DUYỆT NỘI DUNG KHÔNG GIAN MẠNG BẰNG 2 KỸ THUẬT KHAI PHÁ DỮ LIỆU LUẬT KẾT HỢP VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Từ khóa:
Kiểm duyệt nội dung, Khai phá luật kết hợp, Xử lý ngôn ngữ tự nhiên, Dữ liệu mạng xã hội
Tóm tắt
Sự phát triển của khoa học máy tính đem lại nhiều lợi ích cho loài người, nhưng bên cạnh đó là
rủi ro tiềm ẩn về sự lan truyền những nội dung độc hại, phát tán những nội dung sai lệch, sử dụng ngôn
ngữ thù địch, tục tĩu . Bài viết này đề xuất một hệ thống kiểm duyệt nội dung tự động bằng cách kết hợp
phương pháp khai phá dữ liệu luật kết hợp (association rule mining) và xử lý ngôn ngữ tự nhiên (natural
language processing – NLP). Pipeline của hệ thống bao gồm thu thập và tiền xử lý dữ liệu, trích xuất tập
từ phổ biến bằng Apriori/FP-Growth, tạo luật kết hợp, kết hợp đặc trưng TF-IDF và embeddings BERT/
PhoBERT, rồi phân loại bằng mô hình học máy và quy tắc.
điểm /
đánh giá
Phát hành ngày
2025-06-15
Chuyên mục
Bài viết