CƠ SỞ TOÁN VÀ MFCCS – TRÍCH XUẤT ĐẶC TRƯNG ÂM THANH

Nguyễn Thế Cường; Nguyễn Thanh Vi; Trương Ngọc Hải

Nguyễn Thế Cường
Nguyễn Thanh Vi
Trương Ngọc Hải

Từ khóa: Audio features; Fourier Transform; Mel-Frequency Cepstral Coefficients

Tóm tắt

Hình ảnh và ngôn ngữ (âm thanh, văn bản) là các dạng thông tin quan trọng nhất mà con người đều sử dụng hàng ngày. Đối với lĩnh vực Trí tuệ nhân tạo (AI), hình ảnh và ngôn ngữ cũng là những dữ liệu quan trọng nhất để làm nguyên liệu khi xây dựng các ứng dụng thực tiễn. Các thuật toán học máy (ML) sẽ được huấn luyện dựa trên những dạng dữ liệu như vậy. Tuy nhiên, làm thế nào để đưa một hình ảnh, một đoạn văn bản hay một đoạn âm thanh thành một ma trận hoặc véc-tơ (trích xuất đặc trưng) để đưa vào các thuật toán ML. Có nhiều phương pháp để xử lí đối với từng dạng dữ liệu là hình ảnh hay ngôn ngữ. Dữ liệu dạng âm thanh dường như còn mơ hồ đối với số đông các nhà nghiên cứu, bởi vì chúng không được hiển thì như hình ảnh hay văn bản. Cơ sở Toán học của xử lí dữ liệu âm thanh còn ít được để ý tới. Trong bài viết này, chúng tôi đề cập cơ sở Toán học và phương pháp MFCCs (Mel-Frequency Cepstral Coefficients) nhằm trích xuất các đặc trưng của dữ liệu dạng âm thanh.

CƠ SỞ TOÁN VÀ MFCCS – TRÍCH XUẤT ĐẶC TRƯNG ÂM THANH

Tóm tắt

BỘ KHOA HỌC VÀ CÔNG NGHỆ - MINISTRY OF SCIENCE AND TECHNOLOGY OF VIETNAM

CỤC THÔNG TIN KHOA HỌC VÀ CÔNG NGHỆ QUỐC GIA - NATIONAL AGENCY FOR SCIENCE AND TECHNOLOGY INFORMATION