Voice control is an important function in many mobile devices and smart home systems, especially it is also a solution to help disabled people controlling common devices in their life. This paper indicates a short-controlled speech recognition method using MFCC (Mel frequency cepstral coefficients) and convolutional neural network (CNN) models. The input audio data are wave files that are assumed to be exactly 1 second in duration. A sliding window of size 30 ms with a step of 10 ms slides in turn over the input data to calculate the MFCC parameters. Each input file will obtain 98 MFCC features, each MFCC feature is a 40-dimensional vector (corresponding to 40 coefficients of Mel-scales filters). The research has used 3 Neural Network models to classify these control speech files: 1-layer Vanilla Neural Network model (1 softmax layer), Deep Neural Network - DNN (with 3 fully connected hidden layers) enough and 1 output layer) and the Convolution Neural Network model - CNN. Experiments were performed on Google's "Speech Commands Dataset" dataset. ( consisting of 65,000 samples divided into 30 classes. Experimental results show that the CNN model achieves the highest classification accuracy of 94.5%.

Keywords: Convolutional neural network (CNN), deep neural network (DNN), keyword spooting (KWS)

Tóm tắt

Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn sử dụng đặc trưng MFCC (Mel frequency cepstral coefficients) và mô hình convolutional neural network (CNN). Dữ liệu âm thanh đầu vào là các file wave được giả định có thời lượng đúng 1 giây. Một cửa sổ trượt kích thước 30 ms với bước dịch chuyển 10 ms lần lượt trượt trên dữ liệu đầu vào để tính các thông số MFCC. Với mỗi tập tin đầu vào sẽ thu được 98 đặc trưng MFCC, mỗi đặc trưng MFCC là một vector 40 chiều (tương ứng 40 hệ số của các bộ lọc Mel-scales). Nghiên cứu đã để xuất sử dụng 3 mô hình Neural Network để phân lớp các tập tin tiếng nói điều khiển này: Mô hình Vanilla Neural Network 1 layer (1 softmax layer), Deep Neural Network - DNN (với 3 layers ẩn kết nối đầy đủ và 1 lớp output) và mô hình Convolution Neural Network - CNN. Các thực nghiệm được thực hiện trên tập dữ liệu “Speech Commands Dataset” của Google ( gồm 65.000 mẫu được chia thành 30 lớp. Kết quả thực nghiệm cho thấy mô hình CNN đạt...

Từ khóa: Convolutional neural network (CNN), deep neural network (DNN), keyword spooting (KWS)

