NGHIÊN CỨU CÁC MÔ HÌNH CHUYỂN ĐỔI HÌNH ẢNH THÀNH VIDEO: MỘT ĐÁNH GIÁ TOÀN DIỆN

Đỗ Thanh Mai, Tô Hữu Nguyên

Đỗ Thanh Mai, Tô Hữu Nguyên

Từ khóa: Hình ảnh sang video; Học sâu; Mô hình khuếch tán; Xử lý video; Khảo sát

Tóm tắt

Bài báo trình bày một nghiên cứu tổng quan có hệ thống về các mô hình trí tuệ nhân tạo cho bài toán chuyển đổi hình ảnh thành video, tập trung vào hai hướng tiếp cận chính là Diffusion Models và Transformer-based Models. Quy trình rà soát tài liệu được thực hiện theo hướng dẫn PRISMA 2020, nhằm đảm bảo tính minh bạch và khả năng tái lập. Các công trình được tìm kiếm trong giai đoạn 2019–2025 trên các cơ sở dữ liệu IEEE Xplore, ACM Digital Library, SpringerLink, ScienceDirect và arXiv, với các từ khóa như “image-to-video generation”, “video synthesis” và “transformer video generation”. Sau các bước sàng lọc và đánh giá, năm mô hình tiêu biểu được lựa chọn để phân tích gồm Imagen Video, Make-A-Video, Tune-A-Video, AnimateDiff và LTX-Video. Phân tích được thực hiện trên cả hai khía cạnh định lượng và định tính, thông qua các độ đo phổ biến như FID, CLIPSIM và Temporal Consistency. Kết quả cho thấy các mô hình diffusion như Imagen Video tạo ra khung hình có chất lượng cao, trong khi các mô hình transformer như LTX-Video thể hiện ưu thế về tính nhất quán thời gian và chuyển động mượt mà. Các mô hình lai như Make-A-Video và AnimateDiff đạt được sự cân bằng giữa hai yếu tố này. Nghiên cứu cung cấp một cái nhìn hệ thống về sự phát triển của mô hình chuyển đổi ảnh thành video và thiết lập quy trình đánh giá theo chuẩn PRISMA, giúp các nhà nghiên cứu dễ dàng tái thực nghiệm và mở rộng kết quả cho các ứng dụng như sáng tạo nội dung, thực tế ảo và giáo dục thông minh.

NGHIÊN CỨU CÁC MÔ HÌNH CHUYỂN ĐỔI HÌNH ẢNH THÀNH VIDEO: MỘT ĐÁNH GIÁ TOÀN DIỆN

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN, THỐNG KÊ - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION AND STATISTICS