Trần Thanh Điện * , Thái Nhựt Thanh Nguyễn Thái Nghe

* Tác giả liên hệ (thanhdien@ctu.edu.vn)

Abstract

Publication of research is the ultimate and significant step to recognize scientific work. However, in the submission system with a wide range of subjects (e.g. Association for Computing Machinery with 2,000 subjects), it may take the authors a lot of time to classify a manuscript into an appropriate group of subjects before it is submitted to a journal or conference. Therefore, this article is aimed to propose automatic solutions to extract information and categorize scientific papers on suitable topics. The experiments was based on the data set of scientific articles published in Can Tho University Journal of Science. The input data were pre-processed, extracted, vectorized and classified using three machine learning techniques including support vector machines, Naïve Bayes, and k-nearest neighbors. The experimental results showed that with the accuracy of over 91%, support vector machines technique proved its feasibility for developing the automatic classification system of scientific papers.
Keywords: k Nearest Neighbor, Naïve Bayes, Support Vector Machine, Text classification  

Tóm tắt

Nghiên cứu khoa học là một phần không thể thiếu trong các trường đại học, viện nghiên cứu, phòng thí nghiệm và cả các công ty lớn. Kết quả của các công trình nghiên cứu khoa học thường được trình bày dưới dạng các bài báo được gửi đến các tạp chí, hội thảo. Tuy nhiên, các hệ thống nhận bài của các tạp chí lớn có rất nhiều chủ đề như Hiệp hội quốc tế về nghiên cứu, giáo dục ngành khoa học máy tính ACM có hơn 2.000 chủ đề, do vậy các tác giả và ban biên tập mất khá nhiều thời gian khi xác định một bài viết thuộc nhóm chủ đề nào trước khi nộp bài cho các tạp chí, hội thảo. Bài viết này đề xuất giải pháp tự động rút trích thông tin và phân loại một bài báo khoa học vào chủ đề nào đó. Dữ liệu vào sẽ được tiền xử lý, rút trích, véc-tơ hóa và phân loại bằng kỹ thuật máy học. Thực nghiệm được xây dựng trên tập dữ liệu là các bài báo khoa học đã được gửi đăng trên Tạp chí khoa học của Trường Đại học Cần Thơ. Các kỹ thuật máy học véc-tơ hỗ trợ (SVM), Bayes thơ ngây (Naïve Bayes), và k-láng giềng gần nhất (kNN) đã được sử dụng để so sánh nhằm tìm ra kết quả tốt nhất. Kết quả thực nghiệm cho thấy kỹ thuật SVM đã cho độ chính xác > 91%, rất khả thi cho việc xây dựng hệ thống tự động phân loại bài báo khoa học.
Từ khóa: Bayes thơ ngây, k-láng giềng gần nhất, máy học véc-tơ hỗ trợ, phân loại văn bản

Article Details

Tài liệu tham khảo

Aggarwal, C. C. and Zhai, C., 2012. In: Aggarwal, C. C. and Zhai, C. (Eds.). Mining Text Data. Springer US. Boston, MA, 163-222.

Bijaksana, M. A., Li, Y. and Algarni, A., 2013. A Pattern Based Two-Stage Text Classifier. In: PernerP. (eds). Machine Learning and Data Mining in Pattern Recognition. Springer Berlin Heidelberg, Berlin, Heidelberg, pp. 169-182.

Boser, B. E., Guyon, I. M. and Vapnik, V. N., 1992, A training algorithm for optimal margin classifiers. In. Proceedings of the fifth annual workshop onComputational learning theory, Pittsburgh, Pennsylvania, USA. ACM. 130401, 144-152.

Burges, C. J. C., 1998. A Tutorial onSupport Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery. 2 (2): 121-167.

Chakrabarti, S., 2003. Mining theWeb: Discovering Knowledge fromHypertext Data.

Chen, J., Huang, H., Tian, S. and Qu, Y., 2009. Feature selection for text classification withNaïve Bayes. Expert Syst. Appl.36 (3): 5432-5435.

Cortes, C. and Vapnik, V., 1995. Support-vector networks. Machine learning. 20 (3): 273-297.

Dumais, S., Platt, J., Heckerman, D. and Sahami, M., 1998, Inductive learning algorithms and representations for text categorization. In. Proceedings of the seventh international conference onInformation and knowledge management, Bethesda, Maryland, USA. ACM. 288651: 148-155.

George, H. J. and Pat, L., 1995, Estimating continuous distributions inBayesian classifiers. In. Proceedings of theEleventh conference onUncertainty in artificial intelligence, Montréal, Qué, Canada. Morgan Kaufmann Publishers Inc. 2074196: 338-345.

Haddoud, M., Mokhtari, A., Lecroq, T. and Abdeddaïm, S., 2016. Combining supervised term-weighting metrics forSVM text classification with extended term representation. Knowledge and Information Systems. 49 (3): 909-931.

Li, Y., Zhang, L., Xu, Y., Yao, Y., Lau, R. Y. K. and Wu, Y., 2017. Enhancing Binary Classification byModeling Uncertain Boundary in Three-Way Decisions. IEEE Transactions on Knowledge and Data Engineering. 29 (7): 1438-1451.

Liu, B., Dai, Y., Li, X., Lee, W. S. and Yu, P. S., 2003. Building text classifiers using positive and unlabeled examples. Third IEEE International Conference on Data Mining, pp. 179-186.

McCallum, A. and Nigam, K., 1998. A comparison of event models for naive bayestext classification. AAAI-98 workshop on learning for text categorization. Citeseer, pp. 41-48.

Mitchell, T., 1997. Machine Learning, McGraw-Hill Higher Education. New York.

NguyễnThị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương., 2010. VnTokenizer, accessed onJuly 15, 2019. Available from https://sourceforge.net/projects/vntokenizer/.

Perone, C. S., 2013. Machine Learning :: Cosine Similarity for Vector Space Models (Part III), accessed on July 20, 2019. Available from http://blog.christianperone.com/2013/09/machine-learning-cosine-similarity-for-vector-space-models-part-iii/.

Sebastiani, F., 2002. Machine learning in automated text categorization. ACM Comput. Surv.34 (1): 1-47.

Tan, P.-N., Steinbach, M. and Kumar, V., 2006. Data Mining Introduction. Bei Jing: The people post andTelecommunications Press.

Thaoroijam, K., 2014. A Study on Document Classification usingMachine Learning Techniques. IJCSI International Journal of Computer Science. 11: 217-222

Trần Cao Đệ và Phạm Nguyên Khang, 2012. Phân loại văn bản với máy học véc-tơ hỗ trợ và cây quyết định. Tạp chí Khoa học Trường Đại học Cần Thơ. 21a: 52-63.

Trần Thị Thu Thảo và Vũ Thị Chinh, 2012. Xây dựng hệ thống phân loại tài liệu tiếng Việt. Báo cáo nghiên cứu khoa học. Trường Đại học Lạc Hồng. Đồng Nai.

Tsai, C.-H., 2000. MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, accessed on July 22, 2019. Available from http://technology.chtsai.org/mmseg/.

Yang, Y. and Liu, X., 1999. A re-examination of text categorization methods. Sigir, pp. 99.

Yang, Y. and Pedersen, J. O., 1997, A Comparative Study on Feature Selection in Text Categorization. In. Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc. 657137: 412-420.

Zhang, L., Li, Y., Sun, C. and Nadee, W., 2013. Rough Set Based Approach toText Classification. 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technologies (IAT), pp. 245-252.