TẠO SINH CHÚ THÍCH HÌNH ẢNH BẰNG MÔ HÌNH LAI CNN-LSTM

Trần Quang Quý, Nguyễn Thị Khuyên, Bùi Tiến Lập

Trần Quang Quý, Nguyễn Thị Khuyên, Bùi Tiến Lập

Abstract

Trong bối cảnh phát triển mạnh mẽ của trí tuệ nhân tạo hiện nay, bài toán tạo sinh chú thích ảnh (image captioning) đã trở thành một lĩnh vực nghiên cứu quan trọng, đóng vai trò chủ đạo trong các ứng dụng như truy xuất hình ảnh, hỗ trợ người khiếm thị và quản lý nội dung đa phương tiện. Bài báo này đề xuất một hệ thống tạo chú thích ảnh tự động dựa trên mô hình lai giữa mạng nơ-ron tích chập InceptionV3 và mạng bộ nhớ dài-ngắn hạn. Mô hình được huấn luyện và đánh giá trên bộ dữ liệu Flickr8k. Để cải thiện hiệu quả tổng quát hóa và giảm thiểu hiện tượng quá khớp, kỹ thuật dropout được áp dụng trong quá trình huấn luyện. Kết quả thực nghiệm cho thấy mô hình đề xuất có khả năng tạo sinh chú thích ảnh với các chỉ số đánh giá BLEU-1 và BLEU-2 lần lượt đạt 0,39 và 0,172. Mặc dù phương pháp sử dụng mô hình lai này chưa thể đảm bảo độ chính xác cao trong việc mô tả nội dung ảnh so với các mô hình Transformer hoặc mô hình biến đổi thị giác – bộ nhớ ngắn dài hạn, nhưng kết quả đạt được có thể chấp nhận được so với mô hình nơ rơn tích chập – bộ nhớ ngắn dài han cơ sở. Kết quả của bài báo mở ra tiềm năng ứng dụng trong các hệ thống xử lý ngôn ngữ tự nhiên và thị giác máy tính.

TẠO SINH CHÚ THÍCH HÌNH ẢNH BẰNG MÔ HÌNH LAI CNN-LSTM

Abstract

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS