MỘT MÔ HÌNH CHÚ Ý NHẸ CHO BÀI TOÁN TÁCH TIẾNG NÓI
Abstract
Bài báo này tập trung vào việc phát triển một mô hình tách tiếng nói kênh đơn nhẹ nhưng hiệu quả, nhằm giải quyết thách thức cân bằng giữa chất lượng tách và độ phức tạp tính toán. Chúng tôi đề xuất khai thác backbone SeliNet kết hợp với cơ chế chú ý CBAM (Convolutional Block Attention Module), cho phép mô hình vừa duy trì hiệu năng cao vừa giảm thiểu số lượng tham số và phép tính FLOPs. Nghiên cứu kế thừa các tiến bộ gần đây trong học sâu miền thời gian, đặc biệt là depthwise separable convolutions, bottleneck blocks và Atrous Temporal Pyramid Pooling để nắm bắt ngữ cảnh đa tỷ lệ. Bằng cách tích hợp CBAM, mô hình có khả năng nhấn mạnh các kênh và vị trí thời gian quan trọng, giúp cải thiện đáng kể SI-SNRi, SDRi và các chỉ số chất lượng khác. Các thí nghiệm trên bộ dữ liệu WSJ0-2mix cho thấy mô hình đạt hiệu năng cạnh tranh so với các mạng sâu nặng nề hơn trong khi giảm đáng kể FLOPs và số tham số. Kết quả này mở ra hướng tiếp cận mới cho các hệ thống tách tiếng nói thời gian thực trên thiết bị di động và biên.