MỘT MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG ĐỒ THỊ TRI THỨC VÀ TÚI TỪ THỊ GIÁC
Tóm tắt
Trong bối cảnh nhu cầu tra cứu ảnh theo hướng hiểu nội dung và ngữ nghĩa ngày một trở nên phổ biến, những kỹ thuật truyền thống vốn chỉ dựa vào đặc trưng thị giác đang dần bộc lộ nhiều hạn chế, đặc biệt khi phải diễn tả được các quan hệ ngữ nghĩa giữa những thực thể có trong ảnh. Nghiên cứu này đề xuất một mô hình tích hợp gồm ba yếu tố chính: phát hiện thực thể bằng YOLOv8, biểu diễn đặc trưng thị giác với túi từ thị giác, và tổ chức thông tin bằng đồ thị tri thức. Các thực thể được phát hiện sẽ được tổ chức vào túi từ thị giác từ đó tạo các bộ ba quan hệ để ánh xạ vào đồ thị tri thức. Khi truy vấn, hệ thống sinh các bộ ba từ ảnh đầu vào để thực hiện tra cứu trong đồ thị tri thức. Mô hình được triển khai đánh giá trên hai tập ảnh dữ liệu phổ biến là OpenImagesV7 và MS-COCO với độ chính xác đạt được ở mức 84,1% và 89,6%, vượt qua nhiều mô hình truyền thống, phản ánh độ tin cậy và khả thi của mô hình đề xuất.