MỘT MÔ HÌNH MÔ TẢ HÌNH ẢNH KẾT HỢP ĐỒ THỊ TRI THỨC VÀ MẠNG HỌC SÂU
Tóm tắt
Nghiên cứu này đề xuất một mô hình mô tả ảnh tích hợp đồ thị tri thức và học sâu nhằm nâng cao khả năng hiểu ngữ nghĩa và tạo ra các mô tả hình ảnh chính xác hơn. Mục tiêu của nghiên cứu là khắc phục những hạn chế của các phương pháp mô tả ảnh truyền thống, vốn thường bỏ qua mối quan hệ giữa các thực thể trong ảnh. Phương pháp của chúng tôi bao gồm việc tạo đồ thị ngữ cảnh từ ảnh đầu vào bằng mạng học sâu, sau đó được bổ sung tri thức bên ngoài từ các đồ thị tri thức có cấu trúc để tạo ra các mô tả giàu ngữ nghĩa. Mô hình được huấn luyện và đánh giá trên các tập dữ liệu chuẩn, bao gồm MSCOCO và Visual Genome. Kết quả thực nghiệm cho thấy mô hình đề xuất vượt trội hơn so với các phương pháp cơ sở hiện có với BLEU4 là 41,3 và METEOR là 31,6, đặc biệt trong các ảnh phức tạp có nhiều thực thể. Hơn nữa, việc bổ sung tri thức từ đồ thị giúp cải thiện đáng kể mức độ liên kết ngữ cảnh và tính thông tin của các mô tả được tạo ra. Nghiên cứu này góp phần thúc đẩy việc nghiên cứu mô hình mô tả ảnh đa đối tượng và làm nổi bật tiềm năng của việc kết hợp tri thức biểu tượng với các mô hình học sâu để hiểu ảnh một cách toàn diện.