XÂY DỰNG MÔ HÌNH CHUYỂN ĐỔI NGÔN NGỮ KÝ HIỆU SANG VĂN BẢN VÀ GIỌNG NÓI
Tóm tắt
Nghiên cứu phát triển ứng dụng dịch ngôn ngữ ký hiệu tiếng Việt theo thời gian thực nhằm hỗ trợ giao tiếp cho người khiếm thính. Ứng dụng sử dụng các điểm mốc ba chiều từ MediaPipe Holistic để ghi nhận chuyển động tay, cơ thể và khuôn mặt, kết hợp hai mô hình học sâu Spatial Temporal Graph Convolutional Network và Channel-Temporal Relational Graph Convolutional Network để nhận dạng cử chỉ. Bộ dữ liệu gồm 2.087 mẫu với 88 nhãn ký hiệu, được tiền xử lý qua chuẩn hóa, phân đoạn hành động bằng thuật toán Fast Dynamic Time Warping và tăng cường dữ liệu bằng nhiễu Gaussian và dịch chuyển thời gian. Kết quả thực nghiệm cho thấy ST-GCN đạt độ chính xác Top-1 99,88% và hội tụ nhanh với các ký hiệu ngắn, rõ, trong khi CTR-GCN đạt 98,09% Top-1 với độ trễ thấp, xử lý hiệu quả các cử chỉ dài hoặc có ngữ cảnh. Văn bản nhận dạng được chuyển sang giọng nói tự nhiên qua thư viện gTTS với độ trễ khoảng 1,95 giây, chủ yếu do phụ thuộc internet, nhưng vẫn đảm bảo tương tác liền mạch. Kết quả chứng minh việc tích hợp ước lượng tư thế 3D với mạng nơ-ron đồ thị nâng cao hiệu quả giao tiếp và khả năng tiếp cận, cung cấp giải pháp công nghệ toàn diện cho người khiếm thính.