MÔ HÌNH CHÚ Ý NGỮ CẢNH ĐA TẦM NHÌN CẢI TIẾN CHO BÀI TOÁN TRẢ LỜI CÂU HỎI DỰA TRÊN HÌNH ẢNH BẰNG TIẾNG VIỆT
Tóm tắt
Bài toán trả lời câu hỏi dựa trên hình ảnh là một bài toán tiêu biểu cho sự giao thoa giữa hai lĩnh vực thị giác máy tính (Computer Vision) và xử lí ngôn ngữ tự nhiên (Natural Language Processing). Bài toán này không chỉ có giá trị khoa học mà còn có giá trị to lớn trong thực tiễn cuộc sống. Việc tích hợp mô hình VQA vào các thiết bị di động có thể hỗ trợ người mù và người khiếm thị trong việc tiếp cận và hiểu nội dung hình ảnh. Phương pháp tiếp cận phổ biến hiện nay là rút trích đặc trưng từ từng vùng trong hình ảnh, giúp mô hình nắm bắt bối cảnh cục bộ. Tuy nhiên, phương pháp này thường bỏ qua bối cảnh toàn cục, ảnh hưởng đến khả năng tổng hợp thông tin và suy luận của mô hình. Các phương pháp hiện nay sử dụng Vision Transformer để rút trích đặc trưng toàn cục và cục bộ từ hình ảnh giúp cải thiện hiệu suất mô hình. Thêm vào đó, cơ chế chú ý đa phương thức (multimodal attention) cũng được áp dụng nhằm tối ưu hóa quá trình kết hợp thông tin giữa hình ảnh và câu hỏi, giúp mô hình có khả năng hiểu được ngữ cảnh và chú ý vào các đặc trưng quan trọng. Hiện nay, nhiều mô hình VQA được tối ưu cho dữ liệu tiếng Anh và một số mô hình được tối ưu cho ngôn ngữ tiếng Việt (ViVQA) đã được công bố. Bài báo này đề xuất một mô hình cải tiến từ mô hình Multi-vision Contextual Attention và đạt được độ chính xác là 62,41% so với mô hình gốc là 60% trên tập dữ liệu ViVQA.