Đỗ Thanh Nghị * Phạm Nguyên Khang

* Tác giả liên hệ (dtnghi@ctu.edu.vn)

Abstract

This paper presents an approach to classify text documents usingthe Bag-of-Word (BoW) model and ensemble-based learning algorithms. The ensemble-based learning algorithms include random multinomial naive Bayes (rMNB) and random oblique decision stump (rODS) models. The bag-of-word model is used to look for the sparse vectors of occurrence counts of words in text documents. The pre-processing step using the bag-of-word model brings out a dataset with a very large number of dimensions. Thus, we propose the new algorithms, called boosting of random multinomial naive Bayes and oblique decision stump models,whichare usually suited for classifying very-high-dimensional datasets. The results of the experiment on a real dataset show that our proposed algorithms have a high performance compared with other algorithms. The new approach has achieved an accuracy of 94.8%.

Keywords: Text classification, Bag-of-Words, Ensemble-based Learning Model, Supervised Classification

Tóm tắt

Trong bài này, chúng tôi giới thiệu tiếp cận phân lớp văn bản với độ chính xác cao. Nghiên cứu của chúng tôi dựa trên sự kết hợp giữa phương pháp biểu diễn văn bản bằng mô hình túi từ và các giải thuật xây dựng tập hợp các mô hình học tự động như Bayes thơ ngây ngẫu nhiên (random multinomial naive Bayes (rMNB)), cây xiên phân ngẫu nhiên đơn giản (random oblique decision stump (rODS)). Bước tiền xử lý, bao gồm phân tích từ vựng, xây dựng mô hình túi từ để biểu diễn văn bản dưới dạng véc tơ tần số xuất hiện của từ trong văn bản, số chiều rất lớn. Chúng tôi đề xuất các giải thuật boosting mới dựa trên mô hình cơ bản như cây ngẫu nhiên xiên phân đơn giản (rODS), Bayes thơ ngây ngẫu nhiên (rMNB), cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm với tập dữ liệu thực cho thấy rằng phương pháp của chúng tôi đề xuất phân lớp rất hiệu quả khi so sánh với các giải thuật hiện có, đạt được chính xác 94.8%.
Từ khóa: Phân loại văn bản, Mô hình túi từ, Phương pháp tập hợp mô hình máy học, Phân loại có giám sát

Article Details

Tài liệu tham khảo

Breiman, L.: Arcing classifiers. The annals of statistics 26(3), 801–849 (1998).

Breiman, L.: Random forests. Machine Learning 45(1), 5–32 (2001).

Chang, C.C., Lin, C.J.: LIBSVM – a library for support vector machines (2001). http://www.csie.ntu.edu.tw/~cjlin/libsvm

Do, T-N., Lenca, P., Lallich, S. and Pham, N-K.: Classifying Very-high-dimensional Data with Random Oblique Decision Trees. in Advances in Knowledge Discovery and Management, Springer-Verlag, pp. 39-55 (2009).

Fix, E and Hodges J.: Discriminatoiry Analysis: Small Sample Performance. Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA (1952).

Freund, Y., and Schapire, R.: A decision-theoretic generalization of on-line learning and an application to boosting. In: Computational Learning Theory: Proceedings of the Second EuropeanConference, pp. 23–37 (1995).

Good, I.: The Estimation of Probabilities: An Essay on Modern Bayesian Methods. MIT Press (1965).

Grove, A.J. and Schuurmans, D.: Boosting in the limit: Maximizing the margin of learned ensembles. In Proceedings of the Fifteenth National Conference on Artificial Intelligence (AAAI-98), pp. 692–699 (1998).

Lewis, D., Gale, W.: A sequential algorithm for training text classifiers. In: Proceedings of SIGIR (1994).

Phạm N.K., Đỗ T.N. và Poulet F.: Phân loại văn bản với BPSVM. Kỷ yếu hội nghị @CNTT, pp. 269-278 (2006).

Quinlan, J.R.: C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA (1993).

Sebastiani, F.: Machine learning in automated text categorization. ACM Computing Surveys 34(1), 1–47 (1999).

Trần, C.Đ và Phạm N.K.: Phân loại văn bản với máy học véc tơ hỗ trợ và cây quyết định. Tạp chí Khoa học Trường Đại học Cần Thơ số (21a):52-63 (2012).

Vapnik, V.: The Nature of Statistical Learning Theory. Springer-Verlag (1995).

Witten, I., Frank, E.: DataMining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann (2005).