SỰ ẢNH HƯỞNG CÁC YẾU TỐ KIẾN TRÚC MẠNG CONVNEXTV2 ĐẾN NHẬN DẠNG BIỂU CẢM KHUÔN MẶT TỪ DỮ LIỆU THỰC TẾ
Tóm tắt
Thành công của các mô hình Transformer đã cho thấy hiệu suất xuất sắc trong các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) đã được mở rộng sang lĩnh vực thị giác máy tính với các kiến trúc Vision Transformers (ViTs), đem lại kết quả tương đương hoặc vượt trội so với các mạng nơron tích chập (CNN) truyền thống trong các nhiệm vụ như nhận dạng hình ảnh và phát hiện đối tượng. Biến thể ConvNeXt V2, một mô hình cải tiến từ kiến trúc ResNet và kế thừa các điểm mạnh của kiến trúc ViTs như cấu trúc phân cấp các lớp nơron và cơ chế mã hóa tự động FCMAF nhằm mang lại hiệu suất cao và mô hình đơn giản hơn. Trong khi đó, nhận dạng biểu cảm khuôn mặt (FER) vẫn là một thách thức đối với các mô hình do hình ảnh trong thực tế bị các yếu tố như che khuất, biến đổi màu sắc và tư thế khuôn mặt. Nghiên cứu này áp dụng ConvNeXt V2 cho bài toán FER với việc điều chỉnh các tham số kiến trúc để đánh giá tác động của chúng trên dữ liệu thực tế của FER từ RAF_DB. Kết quả thử nghiệm cho thấy những yếu tố kiến trúc của ConvNeXt V2 tác động đến độ phức tạp của mô hình và chất lượng nhận dạng cho FER, cung cấp những phân tích ý nghĩa để làm rõ những vận dụng điểm mạnh của mô hình kiến trúc ViTs và kết hợp với các kiến trúc CNN truyền thống nhằm tăng thêm hiệu quả cho mô hình ứng dụng.