TỐI ƯU CÁ NHÂN HÓA THIẾT KẾ THỜI TRANG DỰA TRÊN TRANG PHỤC ĐỘC ĐÁO VÀ MÔ TẢ VĂN BẢN TIẾNG VIỆT

Nguyễn Thu Phượng; Cao Thanh Tùng

Nguyễn Thu Phượng
Cao Thanh Tùng

Từ khóa: mô hình hình ảnh-ngôn ngữ, mô tả văn bản tiếng Việt, tối ưu cá nhân hoá thiết kế thời trang, trang phục độc đáo

Tóm tắt

Nghiên cứu này giới thiệu một quy trình mới để tạo ra ảnh thời trang con người chân thực từ mô tả bằng tiếng Việt, bằng cách tích hợp dịch máy (MarianMT), xử lý ngôn ngữ tự nhiên (PhoBERT) và khung sinh ảnh hai giai đoạn lấy cảm hứng từ Text2Human. Quy trình này tinh chỉnh mô hình Stable Diffusion với LoRA (Low-Rank Adaptation) và phân tích GAN điều kiện trên bộ dữ liệu tùy chỉnh “FASHION-HITU” bao gồm 83 mục thời trang Việt Nam với các thuộc tính chi tiết. Sử dụng mã hóa Véc-tơ-Quantized Variational AutoEncoder (VQVAE) phân cấp và hỗn hợp chuyên gia (MoE), hệ thống tối ưu hóa hiệu quả tính toán đồng thời đạt độ trung thực cao trong tái tạo kết cấu và hình dáng phức tạp, độc đáo. Kết quả thực nghiệm trên DeepFashion-MultiModal và bộ dữ liệu tùy chỉnh cho thấy Khoảng cách xuất phát Fréchet (FID) đạt 23.90 (Parsing) và 25.87 (Pose), với độ chính xác dự đoán thuộc tính đạt 95.88% cho denim và 89.92% cho kẻ sọc, vượt trội hơn các phương pháp cơ sở như HumanGAN. Dù gặp hạn chế trong xử lý pose phức tạp do thiếu dữ liệu densepose, các hướng phát triển tương lai sẽ tập trung mở rộng bộ dữ liệu, cải thiện kiểm soát pose bằng ControlNet, và phát triển ứng dụng thử đồ ảo trên nền tảng web để hỗ trợ ngành thời trang Việt Nam.

TỐI ƯU CÁ NHÂN HÓA THIẾT KẾ THỜI TRANG DỰA TRÊN TRANG PHỤC ĐỘC ĐÁO VÀ MÔ TẢ VĂN BẢN TIẾNG VIỆT

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS