Kỹ thuật tìm thông tin ngôn ngữ chéo nhau sử dụng từ điển hai ngôn ngữ tiếng Việt và tiếng Anh

  • Nguyen Han Doan

Tóm tắt

Nội dung của web đã tiếp tục phát triển mỗi ngày. Một nghiên cứu ở năm 2001 cho rằng 70 phần trăm nội dung web được viết bằng tiếng Anh, nhưng chỉ có 44 phần trăm người dùng có thể nói được tiếng Anh thông suốt. Những con số này có thể thay đổi nhưng tiếng Anh vẫn được coi là ngôn ngữ chính sử dụng trên web. Để tìm kiếm những nội dung viết bằng tiếng Anh, chúng tôi đề nghị một kỹ thuật “Cross Language Information Retrieval (CLIR)”. Kỹ thuật này thông dịch những từ tiếng Việt sang tiếng Anh với dạng nhóm từ (phrases) để kiếm được những nội dung quan trọng. Kỹ thuật này dùng "web log" để kiếm được những thống kê về sự sử dụng của tù tiếng Anh. Thông tin này dùng để loại bỏ những từ không cần thiết hoặc không rõ ràng (ambiguous) trong quá trình phiên dịch bằng cách lựa chọn nghĩa đúng trong lúc dịch. Các đề xuất của bài báo cũng liên quan đến cấu trúc của các câu truy vấn đã được dịch, trong việc sắp xếp thứ tự các từ đã được dịch, để đưa ra được kết quả thích hợp.
điểm /   đánh giá
Phát hành ngày
2008-03-24
Chuyên mục
BÀI BÁO