Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung chính của khối thông điệp trên diễn đàn thảo luận

  • Đỗ Phúc
  • Mai Xuân Hùng
  • Nguyễn Thị Kim Phụng

Tóm tắt

Bài báo trình bày kết quả nghiên cứu xây dựng một hệ thống gom cụm các thông điệp trên diễn đàn thảo luận nhằm hỗ trợ trích lược nội dung chính trong khối thông điệp. Các thông điệp trên diễn đàn là một dạng văn bản. Để gom cụm thông điệp, cần tìm kiếm mô hình đặc trưng văn bản. Các tiếp cận trước đây đã sử dụng mô hình tập hợp từ hay vector từ để đặc trưng văn bản. Các mô hình này đã bỏ sót các thông tin quan trọng trong văn bản như vị trí của từ trong văn bản, quan hệ ngữ nghĩa giữa các từ, các liên kết trên các văn bản web... Gần đây đã có các công trình nghiên cứu sử dụng đồ thị để đặc trưng văn bản. Sau khi biểu diễn các thông điệp bằng đồ thị, chúng tôi đã chọn giải pháp gom cụm đồ thị bằng mạng Kohonen vì mạng Kohonen có thể gom cụm dữ liệu mà không cần chỉ định trước số cụm. Ngoài ra mạng Kohonen có khả năng biểu diễn trực quan khối văn bản trên màn hình máy tính thông qua lớp ra Kohonen 2D. Chúng tôi đã tiến hành nghiên cứu cách tính khoảng cách giữa hai đồ thị dựa trên đồ thị con chung lớn nhất và cách cập nhật trọng số của mạng Kohonen dựa trên đồ thị có trọng bằng thuật giải di truyền sau đó tiến hành thử nghiệm và phân tích kết quả.
điểm /   đánh giá
Phát hành ngày
2008-08-08
Chuyên mục
BÀI BÁO