Phạm Nguyên Khang * , Phạm Thế Phi Huỳnh Nhật Minh

* Tác giả liên hệ (pnkhang@ctu.edu.vn)

Abstract

We present, in this paper, a novel method for sign language recognition. From data acquired with Kinect camera, features of hand movement are extracted. We also propose a new feature to describe hand movement. The feature is computed by dividing the orbit of hand movement into k segments. For each segment, we compute the orientation histogram. The feature is hence independent to length of orbit. Moreover, to improve the discrimant power we also extract the visual information of hand shape with GIST feature. These features are then used to train a recognition model with support vector machines. The experimentations are realized with 280 samples collected from 5 students in Can Tho Disabled Children School. The numerical results show that the proposed method gives an 90% in term of accuracy.
Keywords: Sign language, Kinect, support vector machines, gestures recognition

Tóm tắt

Trong bài báo này, chúng tôi đề xuất một phương pháp mới cho việc nhận dạng ngôn ngữ dấu hiệu. Với dữ liệu được thu nhận từ camera Kinect, chúng tôi trích các đặc trưng chuyển động của bàn tay. Chúng tôi đề xuất một phương pháp biểu diễn quỹ đạo chuyển động của bàn tay bằng cách chia quỹ đạo thành k (e.g. k = 4) đoạn và sau đó tính tổ chức đồ (orientation histogram) của hướng di chuyển cho từng đoạn. Với phương pháp này, đặc trưng chuyển động không phụ thuộc vào độ dài của quỹ đạo. Ngoài ra, để tăng cường khả năng phân biệt, thông tin trực quan (visual) về hình dạng của bàn tay cũng trích xuất với đặt trưng GIST. Tất cả các đặc trưng trên được sử dụng để huấn luyện bộ nhận dạng được huấn luyện bằng mô hình máy học véc-tơ hỗ trợ. Chúng tôi đã thu thập dữ liệu từ 5 bạn học viên trường dạy trẻ khuyết tật thành phố Cần Thơ. Bộ dữ liệu gồm 14 từ, mỗi người thực hiện 4 lần. Tổng cộng là 280 phần tử. Thực nghiệm cho thấy kết quả nhận dạng đạt 90%.
Từ khóa: Ngôn ngữ ký hiệu, camera Kinect, máy học véc-tơ hỗ trợ, nhận dạng cử chỉ

Article Details

Tài liệu tham khảo

Agarwal, A. and M.K., Thakur, 2013. In proceedings of the 6th International Conference on Contemporary Computing (IC3), 181 – 185.

Chang, C. C. and C. J. Lin, 2001, Libsvm – a library for support vector machines. http://www.csie.ntu.edu.tw/~cjlin/libsvm.

Duong Van Hieu, Supot Nitsuwat, Sign Language recognition for hearing-impaired people using trajectory feature based on the Fuzzy Hidden Markov Models, Hội thảo quốc gia lần thứ 12, một số vấn đề chọn lọc của công nghệ thông tin và truyền thông: chủ đề phát hiện tri thức từ dữ liệu, Biên Hòa, 2009.

Fung, G. and O. L. 2001. Mangasarian, Proximal Support Vector Machine Classifiers, in Proceedings of Conference on Knowledge Discovery and Data Mining, August 26-29, 2001, San Francisco, CA. 77 – 86.

Fung, G. and O. L. Mangasarian. 2002. Finite Newton Method for Lagrangian Support Vector Machine Classification. Technial report, Data Mining Institute, Computer Sciences Department, University of Wisconsin.

Hussein, Mohamed E., Marwan Torki, Mohammad A. Gowayyed, Motaz El-Saban, 2013, Human action recognition using a temporal hierarchy of covariance descriptors on 3D joint locations, in Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, 2466 – 2472.

Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hoàng, Hồ Viết Hà, Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng Neuron nhân tạo, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, Số: 12 (61); pp: 75-80, 2012.

Le Thi-Lan, Minh-Quoc Nguyen, Thi-Thanh-Mai Nguyen, 2013, Human posture recognition using human skeleton provided by Kinect, in Proceedinds of the International Conference on Computing, Management and Telecommunications, 340 – 345.

Lowe, D. G., 2004. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2):91–110.

Platt, J. 1998. Sequential minimal optimization: a fast algorithm for training support vector machines. Microsoft research technical report MSR-TR-98-14.

Shotton, J., A. Fitzgibbon and M. Cook, T. Sharp, M. Finocchio, R. Moore, A. Kipman, and A. Blake. 2011. Real-time human pose recognition in parts from single depth images,” In Proceedings of IEEE Conference on CVPR, 1297-1304.

Vapnik, V. 1995. The nature of statistical learning theory, Springer-Verlag, New York.

Wang Jiagn, Zicheng Liu, Ying Wu, Junsong Yuan, 2012. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1290 – 1297.