Thai Thuan Thuong *

* Corresponding author (thuongtt@yersin.edu.vn)

Abstract

Voice control is an important function in many mobile devices and smart home systems, especially it is also a solution to help disabled people controlling common devices in their life. This paper indicates a short-controlled speech recognition method using MFCC (Mel frequency cepstral coefficients) and convolutional neural network (CNN) models. The input audio data are wave files that are assumed to be exactly 1 second in duration. A sliding window of size 30 ms with a step of 10 ms slides in turn over the input data to calculate the MFCC parameters. Each input file will obtain 98 MFCC features, each MFCC feature is a 40-dimensional vector (corresponding to 40 coefficients of Mel-scales filters). The research has used 3 Neural Network models to classify these control speech files: 1-layer Vanilla Neural Network model (1 softmax layer), Deep Neural Network - DNN (with 3 fully connected hidden layers) enough and 1 output layer) and the Convolution Neural Network model - CNN. Experiments were performed on Google's "Speech Commands Dataset" dataset. (https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html) consisting of 65,000 samples divided into 30 classes. Experimental results show that the CNN model achieves the highest classification accuracy of 94.5%.

Keywords: Convolutional neural network (CNN), deep neural network (DNN), keyword spooting (KWS)

Tóm tắt

Điều khiển bằng giọng nói là một chức năng quan trọng trong nhiều thiết bị di động, hệ thống nhà thông minh, đặc biệt đó là một giải pháp giúp cho người khuyết tật có thể điều khiển được các thiết bị thông dụng trong cuộc sống. Bài báo trình bày một phương pháp nhận dạng tiếng nói điều khiển ngắn sử dụng đặc trưng MFCC (Mel frequency cepstral coefficients) và mô hình convolutional neural network (CNN). Dữ liệu âm thanh đầu vào là các file wave được giả định có thời lượng đúng 1 giây. Một cửa sổ trượt kích thước 30 ms với bước dịch chuyển 10 ms lần lượt trượt trên dữ liệu đầu vào để tính các thông số MFCC. Với mỗi tập tin đầu vào sẽ thu được 98 đặc trưng MFCC, mỗi đặc trưng MFCC là một vector 40 chiều (tương ứng 40 hệ số của các bộ lọc Mel-scales). Nghiên cứu đã để xuất sử dụng 3 mô hình Neural Network để phân lớp các tập tin tiếng nói điều khiển này: Mô hình Vanilla Neural Network 1 layer (1 softmax layer), Deep Neural Network - DNN (với 3 layers ẩn kết nối đầy đủ và 1 lớp output) và mô hình Convolution Neural Network - CNN. Các thực nghiệm được thực hiện trên tập dữ liệu “Speech Commands Dataset” của Google (https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html) gồm 65.000 mẫu được chia thành 30 lớp. Kết quả thực nghiệm cho thấy mô hình CNN đạt...

Từ khóa: Convolutional neural network (CNN), deep neural network (DNN), keyword spooting (KWS)

Article Details

References

Abdel-Hamid, O., Mohamed, A. R., Jiang, H., & Penn, G. (2012). Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. In 2012 IEEE international conference on Acoustics, speech and signal processing (ICASSP) (pp. 4277-4280). IEEE.

Chen, G., Parada, C., & Heigold, G. (2014, May). Small-footprint keyword spotting using deep neural networks. In 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 4087-4091). IEEE.

Fernández, S., Graves, A., & Schmidhuber, J. (2007, September). An application of recurrent neural networks to discriminative keyword spotting. In International Conference on Artificial Neural Networks (pp. 220-229). Springer, Berlin, Heidelberg.

Jansson, P. (2018). Single-word speech recognition with Convolutional Neural Networks on raw waveforms.

Keshet, J., & Bengio, S. (2009). Automatic speech and speaker recognition. Large Margin and Kernel Methods, John Willy and Sons.

Li, K. P., Naylor, J. A., & Rossen, M. L. (1992, March). A whole word recurrent neural network for keyword spotting. In Acoustics, Speech, and Signal Processing, IEEE International Conference on (Vol. 2, pp. 81-84). IEEE Computer Society.

McMahan, B., & Rao, D. (2018, April). Listening to the world improves speech command recognition. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).

Rohlicek, J. R., Russell, W., Roukos, S., & Gish, H. (1989, May). Continuous hidden Markov modeling for speaker-independent word spotting. In International Conference on Acoustics, Speech, and Signal Processing, (pp. 627-630). IEEE.

Rose, R. C., & Paul, D. B. (1990, April). A hidden Markov model based keyword recognition system. In International Conference on Acoustics, Speech, and Signal Processing (pp. 129-132). IEEE.

Russell, S., Dewey, D., & Tegmark, M. (2015). Research priorities for robust and beneficial artificial intelligence. Ai Magazine, 36(4), 105-114.

Silaghi, M. C., & Bourlard, H. (1999). Iterative posterior-based keyword spotting without filler models. In Proceedings of the IEEE Automatic Speech Recognition and Understanding (ASRU'99) Workshop (No. CONF).

Silaghi, M. C. (2005, April). Spotting subsequences matching an HMM using the average observation probability criteria with application to keyword spotting. In AAAI (pp. 1118-1123).

Schalkwyk, J., Beeferman, D., Beaufays, F., Byrne, B., Chelba, C., Cohen, M., ... & Strope, B. (2010). “your word is my command”: Google search by voice: A case study. In Advances in speech recognition (pp. 61-90). Springer, Boston, MA.

Sainath, T. N., Mohamed, A. R., Kingsbury, B., & Ramabhadran, B. (2013, May). Deep convolutional neural networks for LVCSR. In 2013 IEEE international conference on acoustics, speech and signal processing (pp. 8614-8618). IEEE.

Sainath, T. N., & Parada, C. (2015). Convolutional neural networks for small-footprint keyword spotting. In Sixteenth Annual Conference of the International Speech Communication Association.

Tabibian, S., Akbari, A., & Nasersharif, B. (2011, June). An evolutionary based discriminative system for keyword spotting. In 2011 International Symposium on Artificial Intelligence and Signal Processing (AISP) (pp. 83-88). IEEE.

Tóth, L. (2014, May). Combining time-and frequency-domain convolution in convolutional neural network-based phone recognition. In 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 190-194). IEEE.

Warden, P. (2017). Speech commands dataset. https://ai. googleblog. com/2017/08/launching-speech-commands-dataset