Tăng cường chú thích ảnh thông qua tích hợp đồ thị tri thức  và mạng R-CNN

Nguyễn Kim Quốc; Đinh Xuân Thao; Đặng Như Phú

Nguyễn Kim Quốc
Đinh Xuân Thao
Đặng Như Phú

Từ khóa: CTA, Đồ thị tri thức, R-CNN, ngữ cảnh Semantic, thị giác máy tính

Tóm tắt

Trong bối cảnh số hóa phát triển mạnh, chú thích ảnh tự động đóng vai trò quan trọng nhưng các mô hình truyền thống còn hạn chế trong hiểu ngữ cảnh Semantic. Nghiên cứu nhằm nâng cao độ chính xác của chú thích ảnh tự động bằng cách tích hợp đồ thị tri thức vào R-CNN. Phương pháp tiếp cận gồm xây dựng đồ thị tri thức từ ImageNet và COCO, trích xuất đặc trưng bằng CNN, đề xuất vùng bằng Selective Search, phân loại softmax, hồi quy vị trí, cùng quy trình tiền xử lý và huấn luyện với thuật toán hạ gradient ngẫu nhiên (learning rate 0,001, 50 epochs, tỉ lệ 80:20). Kết quả cho thấy mô hình đạt accuracy 96 % và IoU 0,75 trên 2 000 ảnh kiểm thử, vượt R-CNN truyền thống (85 %, IoU 0,6). Việc tích hợp đồ thị tri thức giúp giảm lỗi trong các bối cảnh phức tạp và cải thiện độ đầy đủ ngữ nghĩa. Độ phức tạp tính toán tăng khoảng 20 %, nhưng vẫn đáp ứng yêu cầu xử lý gần thời gian thực và cho hiệu suất cao hơn Fast R-CNN và YOLO. Nghiên cứu này đóng góp phần quản lý ảnh và thiết bị di động, phục vụ cho các ngành liên quan trong việc sử dụng hình ảnh.

Tăng cường chú thích ảnh thông qua tích hợp đồ thị tri thức và mạng R-CNN

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS