Phân loại ảnh đa nhãn với đối tượng mới từ tập dữ liệu đơn nhãn dựa trên mô hình conformer mặt nạ

Nghiêm Văn Triệu; Ngô Quốc Tạo

Nghiêm Văn Triệu
Ngô Quốc Tạo

Từ khóa: gán lại đa nhãn tập ImageNet, mô hình Conformer, phân loại ảnh đa nhãn, tập dữ liệu đơn nhãn, tập dữ liệu ImageNet.

Tóm tắt

Mô hình Convolutional Neural Network và gần đây là Transformer đã chứng minh hiệu quả trong phân loại ảnh đơn nhãn dựa trên các tập dữ liệu đơn nhãn. Khi mở rộng ra bài toán phân loại ảnh đa nhãn, một rào cản lớn là không đủ các tập dữ liệu đa nhãn cho huấn luyện mô hình. Kết hợp trực tiếp tập ảnh đa nhãn và đơn nhãn (cho đối tượng mới) chưa mang lại kết quả phân loại đa nhãn. Trong bài báo này, chúng tôi đề xuất mô hình Conformer và phương pháp mặt nạ tựa BERT cho phân loại ảnh đa nhãn dựa trên tập dữ liệu đơn nhãn ImageNet và tập dữ liệu đa nhãn Coco. ImageNet được sử dụng để huấn luyện nhận dạng đối tượng “chính” trong ảnh (đối tượng ImageNet) và Coco để nhận dạng các đối tượng “phụ” khác trong ảnh. Kết hợp một lượng nhỏ dữ liệu ngữ cảnh đa nhãn là sự “lai ghép” đối tượng từ Coco và ImageNet để kết nối các tập dữ liệu khác nhau, mô hình đề xuất có thể nhận dạng đối tượng “chính” trong ảnh và các đối tượng thông thường khác. Ngoài ra, mô hình có thể áp dụng cho gán lại đa nhãn tập dữ liệu ImageNet với thông tin ngữ cảnh đặc trưng.

Tác giả

Nghiêm Văn Triệu

Tổng công ty Viễn thông Mobifone

Ngô Quốc Tạo

Viện Công nghệ thông tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Phân loại ảnh đa nhãn với đối tượng mới từ tập dữ liệu đơn nhãn dựa trên mô hình conformer mặt nạ

Tóm tắt

Tác giả

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN KHOA HỌC VÀ CÔNG NGHỆ QUỐC GIA - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION