Ứng dụng mạng nơ-ron tế bào với luật học Perceptron hồi quy nhận dạng cảm xúc qua giọng nói
Tóm tắt
Bài báo đề xuất phương pháp nhận dạng cảm xúc qua giọng nói sử dụng mạng nơ-ron tế bào (CeNNs) với luật học Perceptron hồi quy (RPLA: Regression Perceptron Learning Algorithm), một giải pháp mới. Mô hình phân loại các cảm xúc thành hai nhóm: tích cực và tiêu cực từ tín hiệu âm thanh. Thử nghiệm được tiến hành trên bộ dữ liệu hợp nhất từ bốn cơ sở dữ liệu gốc (EmoDB, SAVEE, TESS, CREMA-D) với 10.257 mẫu cho thấy, CeNNs năm lớp đạt độ chính xác 82%±0,02 (p=0,0001 so với Transformer), vượt trội hơn các mô hình Gaussian Mixture Models (GMM, 68%), Support Vector Machines (SVM, 72%), Long Short-Term Memory (LSTM, 75%) và Transformer (80%). Độ trễ xử lí trung bình 50 ms hỗ trợ ứng dụng thời gian thực. Nghiên cứu góp phần cải thiện tương tác người – máy trong trợ lí ảo, dịch vụ khách hàng và hỗ trợ sức khỏe tâm thần.