TÍCH HỢP YẾU TỐ CẢM XÚC VÀO NGỮ CẢNH TRONG HỆ THỐNG HỘI THOẠI ĐA PHƯƠNG THỨC

  • Lê Nguyễn Thuỳ Dương
  • Lê Ngọc Tuấn
  • Nguyễn Hồng Bửu Long
Từ khóa: hệ thống hội thoại đa phương thức; học đa tác vụ; mô hình ngôn ngữ lớn; ràng buộc ngữ cảnh; yếu tố cảm xúc

Tóm tắt

Hệ thống hội thoại thuần văn bản sử dụng hướng tiếp cận seq2seq đã xuất hiện nhiều trong các công trình nghiên cứu những năm qua. Tuy nhiên, ngoài việc hội thoại hoàn toàn bằng văn bản thì hình ảnh và cảm xúc cũng là những yếu tố quan trọng. Năm 2021, Zheng và các cộng sự (Zheng et al., 2021) đã đưa ra mô hình cơ sở MOD, mô hình có thể đối thoại bằng văn bản, hình ảnh và có thể phân loại cảm xúc. MOD đã tận dụng thành công sức mạnh của mô hình ngôn ngữ lớn, tuy nhiên ngữ cảnh đầu vào không tận dụng được yếu tố cảm xúc. Vì vậy, chúng tôi thực hiện cải tiến mô hình MOD bằng cách bổ sung sự ràng buộc của yếu tố cảm xúc đối với hai yếu tố còn lại (văn bản, hình ảnh) nhằm mục đích tăng chất lượng thông tin trong ngữ cảnh. Ngoài ra, chúng tôi cũng thực hiện khảo sát hiệu quả khi thêm đặc trưng ảnh được trích xuất từ mạng CNN, nhằm tăng chất lượng đặc trưng ảnh cho ngữ cảnh đầu vào. Thực nghiệm thu được kết quả là tăng 0,19 điểm BLEU-4 và giảm 4,6 ở độ đo Perplexity so với MOD, kết quả cho thấy mô hình cải tiến hoạt động hiệu quả hơn khi có thêm sự ràng buộc của yếu tố cảm xúc trong ngữ cảnh.

điểm /   đánh giá
Phát hành ngày
2023-08-19