Nguyễn Thái Nghe * Trương Quốc Định

* Tác giả liên hệ (ntnghe@cit.ctu.edu.vn)

Abstract

In this study, we propose a solution to build a semi-automatic consultancy system (a semi-automatic question-answering system) using mobile/Internet networks and machine learning approaches. To build the system, at first, we need to build modules for sending and receiving SMS/email messages. These modules are important for pupils to send their questions that need to be consulted. Next, a message classification module is built using a combination of machine learning method (e.g., SVM) and text processing technologies. Finally, a whole web-based system is conducted to integrate these modules. The initial results show that the system can classify the questions at 82.33% of accuracy, thus, the proposed approach is feasible.
Keywords: Text classification, SMS classification, automatic question-answer, text recommendation

Tóm tắt

Trong bài viết này, chúng tôi đề xuất một giải pháp xây dựng Hệ thống hỗ trợ tư vấn tuyển sinh bán tự động sử dụng kết hợp các kỹ thuật trong xử lý văn bản, máy học SVM và xử lý tin nhắn SMS trong hệ thống thông tin di động. Hệ thống tư vấn này có khả năng tiếp nhận câu hỏi của thí sinh từ trang Web/email hoặc qua tin nhắn SMS, sau đó, câu hỏi sẽ được phân loại tự động bằng máy học SVM để chuyển đến chuyên gia thích hợp trong từng lĩnh vực. Sau khi có câu trả lời từ chuyên gia, hệ thống sẽ phản hồi tức thì cho thí sinh. Bên cạnh đó, ngay sau khi thí sinh đặt câu hỏi, hệ thống sẽ xử lý và tìm độ tương đồng của câu hỏi hiện tại so với các câu đã được trả lời trước đây, nhằm gợi ý cho thí sinh có thêm thông tin. Thử nghiệm trên tập dữ liệu thu thập được từ 447 câu hỏi thuộc 8 lĩnh vực thường được nhiều thí sinh quan tâm cho thấy hệ thống đạt độ chính xác 82.33%. Độ chính xác này sẽ còn được cải thiện theo thời gian khi mà lượng câu hỏi đủ lớn cho mô hình máy học, vì thế, giải pháp đề xuất này sẽ mở ra một hướng mới trong hỗ trợ tư vấn tuyển sinh.
Từ khóa: Phân loại văn bản, phân loại tin nhắn SMS, tư vấn tự động, tìm kiếm thông tin, hệ gợi ý

Article Details

Tài liệu tham khảo

V.Vapnik. The Nature of Statistical Learning Theory. Springer, NewYork, 1995.

Phuong, L. H., Thi Minh Huyên, N., Roussanaly, A., & Vinh, H. T. (2008, June). A Hybrid Approach to Word Segmentation of Vietnamese Texts. In Language and Automata Theory and Applications (pp. 240-249). Springer-Verlag.

Huang, X., Peng, F., Schuurmans, D., Cercone, N., & Robertson, S. E. (2003). Applying machine learning to text segmentation for information retrieval. Information Retrieval, 6(3-4), 333-362.

Chang, P. C., Galley, M., & Manning, C. D. (2008, June). Optimizing Chinese word segmentation for machine translation performance. In Proceedings of the Third Workshop on Statistical Machine Translation (pp. 224-232). Association for Computational Linguistics.

Joachims, T. (1998). Text categorization with support vector machines: Learning with many relevant features (pp. 137-142). Springer Berlin Heidelberg.

Ikonomakis, M., Kotsiantis, S., & Tampakas, V. (2005). Text classification using machine learning techniques. WSEAS Transactions on Computers, 4(8), 966-974.

Dalal, Mita K., and Mukesh A. Zaveri. "Automatic text classification: a technical review." International Journal of Computer Applications 28.2 (2011): 37-40.

Song, G., Ye, Y., Du, X., Huang, X., & Bie, S. (2014). Short text classification: A survey. Journal of Multimedia, 9(5), 635-643.

Arnaud Henry-Labordere and Vincent Jonack. 2004. SMS and MMS Interworking in Mobile Networks. Artech House, Inc., Norwood, MA, USA.

Trần Cao Đệ, Phạm Nguyên Khang (2012), Phân loại văn bản với Máy học vector hỗ trợ và Cây quyết định”, Tạp chí khoa học (21a), tr. 52 – 63.

Lương Thế Anh, Nguyễn Thái Nghe, và Nguyễn Chí Ngôn. 2014. Xây dựng hệ thống hỗ trợ khuyến nông trên cây lúa qua mạng thông tin di động. Trang 9-21, số 33a, Tạp chí Khoa học Trường Đại học Cần Thơ, ISSN: 1859-2333.

Chang, C.C., Lin, C.J (2011), LIBSVM – a library for support vector machines, http://www.csie.ntu.edu.tw/~cjlin/libsvm

R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874.

SMSLib, a universal API for sms messaging, http://smslib.org/, retrieved 01/2015

jwap, http://jwap.sourceforge.net/, retrieved 01/2015

jMmsLib, http://jmmslib.sourceforge.net, retrieved 01/2015