Đỗ Thanh Nghị * Trần Cao Đệ

* Tác giả liên hệ (dtnghi@ctu.edu.vn)

Abstract

This paper presents the semantic smoothing of the Bag-of-Words (BoW) model to improve the positive class prediction of k nearest neighbors (kNN) in the short text classification. The BoW model, a representation of the text constructed by counting the occurrence of each word in the text, is popularly used in text classification. The drawback of the BoW model is that it does not take the semantic similarity of words into account. That is often the cause of mismatches in the vocabulary used by kNN. And then, it leads to the poor prediction of the positive class in short text classification. We propose to use the semantic smoothing of BoW to improve the positive class prediction of kNN. The numerical test results on a real dataset show that our approach improves 8% in terms of the positive class prediction while degradesing less than 1% in term of the negative class prediction of kNN algorithm in short text classification.
Keywords: Text classification, Bag-of-Words, semantic smoothing, k nearest neighbors

Tóm tắt

Trong bài này, chúng tôi giới thiệu tiếp cận tích hợp ngữ nghĩa với mô hình túi từ nhằm cải tiến hiệu quả dự đoán lớp dương của giải thuật k láng giềng trong phân lớp văn bản ngắn. Mô hình túi từ là mô hình biểu diễn văn bản như véc tơ tần số xuất hiện của từ trong văn bản, được sử dụng phổ biến hiện nay trong vấn đề phân lớp văn bản. Tuy nhiên, khuyết điểm của mô hình túi từ là không quan tâm đến sự đồng nghĩa của từ, điều này làm giảm hiệu quả dự đoán lớp dương (lớp quan tâm) của giải thuật k láng giềng trong phân lớp văn bản ngắn. Chúng tôi đề xuất tích hợp ngữ nghĩa vào mô hình túi từ để cải thiện kết quả dự đoán lớp dương của k láng giềng. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng các phương pháp của chúng tôi đề xuất cải thiện dự đoán lớp dương hơn 8% trong giảm chưa đến 1% dự đoán lớp âm của giải thuật k láng giềng trong phân lớp văn bản ngắn.
Từ khóa: phân lớp văn bản ngắn, mô hình túi từ, ngữ nghĩa, k láng giềng

Article Details

Tài liệu tham khảo

Blei, D., Ng, A., Jordan, M.: Latent Dirichlet allocation. Journal of Machine Learning Research3 (4–5): 993-1022, (2003).

Breiman, L.: Random forests. Machine Learning 45(1), 5–32 (2001).

Bùi T-T., Nguyễn Đ-T. và Đỗ T-N.: Hệ thống tư vấn tài nguyên học tập. Kỷ yếu hội thảo SGK’06, Huế, Tr. 1-9 (2006).

Do, T-N., Moga, S. and Lenca, P.: Random forest of oblique decision trees for ERP semi-automatic configuration. in Multiple Model Approach to Machine Learning, Springer (2014), pp. 25-34.

Đỗ, T-N., Phạm, N-K.: Phân loại văn bản: Mô hình túi từ và tập hợp mô hình máy học tự động. Tạp chí khoa học ĐHCT, Số 28: 9-16 (2013).

Dumais, S.: Latent Semantic Analysis. Annual Review of Information Science and TechnologyVol. 38(1):188-230, (2004).

Fellbaum, C.: WordNet: An electronic lexical database. MIT Press (1998)

Fix, E. and Hodges J.: Discriminatoiry Analysis: Small Sample Performance. Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA (1952).

Freund, Y., and Schapire, R.: A decision-theoretic generalization of on-line learning and an application to boosting. In: Computational Learning Theory: Proceedings of the Second European Conference, pp. 23–37 (1995).

Good, I.: The Estimation of Probabilities: An Essay on Modern Bayesian Methods. MIT Press(1965).

Harris, Z.: Distributional Structure. Word10(2/3) (1954).

Hofmann, T.: Probabilistic Latent Semantic Indexing. Proceedings of the 22th Annual International SIGIR Conference on Research and Development in Information Retrieval (1999), pp.

Lewis, D., Gale, W.: A sequential algorithm for training text classifiers. In: Proceedings of SIGIR (1994).

Liu, B.: Sentiment Analysis and Opinion Mining. Morgan & Claypool, 2012.

Manning, C., Raghavan, P. and Schütze, H.: Introduction to Information Retrieval. Cambridge University Press (2008)

McCallum, A.: Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering. 1998. http://www-2.cs.cmu.edu/~mccallum/bow.

Nguyen, T-B., Lenca, P., Do, T-N. et Poulet, F.: Visualisation de réseaux d'experts. Acte du 7ème Atelier Visualisation et extraction de connaissances, EGC’09, 9èmes Journées d’Extraction et Gestion des Connaissances (2009), pp. 1-5.

Phạm, N-K, Đỗ, T-N, Poulet, F.: Phân loại văn bản với giải thuật Boosting PSVM. Kỷ yếu hội nghị @CNTT (2006), Tr. 269-278.

Phạm, N-K., Đỗ, T-N., Trần, C-Đ.: Phân loại dữ liệu với Giải thuật Arcx4-LSSVM. Tuyển tập công trình nghiên cứu Công nghệ Thông tin và Truyền thông, NXB KHKT (2008), Tr.72-78.

Quinlan, J.R.: C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA (1993).

Salton, G., Wong, A., Yang, C.S.: A vector space model for automatic indexing. Communications of the ACM, Vol.18(11):613-620 (1975).

Sebastiani, F.: Machine learning in automated text categorization. ACM Computing Surveys34(1), 1–47 (1999)

Seco, N., Veale, T., Hayes, J.: An Intrinsic Information Content Metric for Semantic Similarity in WordNet. Proceedings of ECAI (2004), pp. 1089-1090.

Song, G., Ye, Y., Du, X., Huang, X., Bie, S.: Short Text Classification: A Survey. Journal of Multimedia, Vol.9(5):635-643 (2014).

Trần, C.Đ và Phạm N.K.: Phân loại văn bản với máy học véc tơ hỗ trợ và cây quyết định. Tạp chí khoa học ĐH. Cần Thơsố (21a):52-63 (2012).

Van Rijsbergen, C.V.: Information Retrieval. Butterworth (1979)

Vapnik, V.: The Nature of Statistical Learning Theory. Springer-Verlag (1995)

Wu, X. and Kumar, V.: Top 10 Algorithms in Data Mining. Chapman & Hall/CRC (2009).