Huỳnh Phụng Toàn * , Nguyễn Vũ Lâm , Đỗ Thanh Nghị Nguyễn Minh Trung

* Tác giả liên hệ (hptoan@ctu.edu.vn)

Abstract

Our investigation aims at classifying spam emails based on machine learning algorithms. The representation of the email that we use for classification is the bag-of-words model, which is constructed from the counting the word occurrence in a histogram like fashion. The pre-processing step brings out a dataset with a very large number of dimensions. Thus, we propose a new algorithm boosting of random oblique decision stumps that is usually suited for classifying very-high-dimensional datasets. The numerical test results on a real dataset collected from 1143 spam and 778 non-spam emails showed that our algorithm boosting of random oblique decision stumps outperforms support vector machine (SVM) and Naùve Bayes in terms of Accuracy, F1-Measure, Precision, TP Rate and TN Rate.
Keywords: boosting of random oblique decision stump, classification, data mining.

Tóm tắt

Trong bài viết này chúng tôi đưa ra hướng tiếp cận học tự động để phát hiện thư rác với giải thuật Boosting cây quyết định ngẫu nhiên xiên phân đơn giản (Boosting of Random Oblique Decision Stump). Để thực hiện, đầu tiên phải tạo ra tập dữ liệu gồm một bộ sưu tập các thư rác và thư không phải là thư rác. Kế tiếp thực hiện tiền xử lý dữ liệu, bao gồm các bước phân tích từ vựng, chọn tập hợp từ hữu dụng để phân loại thư rác, xây dựng mô hình túi từ. Bước tiền xử lý sinh ra tập dữ liệu có số chiều rất lớn, chúng tôi đề nghị giải thuật mới có tên là Boosting cây quyết định ngẫu nhiên xiên phân đơn giản cho phép phân lớp hiệu quả tập dữ liệu này. Kết quả thực nghiệm trên tập dữ liệu thực thu thập từ 1143 thư rác và 778 thư không phải thư rác cho thấy giải thuật do chúng tôi đề nghị phân lớp chính xác hơn so với giải thuật SVM và Naùve Bayes qua các tiêu chí so sánh như Accuracy, F1-Measure, Precision, TP Rate và TN Rate.
Từ khóa: Phân loại thư rác, giải thuật học Boosting cây quyết định ngẫu nhiên xiên phân đơn giản, giải thuật phân lớp dữ liệu, khai mỏ dữ liệu.

Article Details

Tài liệu tham khảo

Bottou, L. and Bousquet, O. (2008). The Tradeoffs of Large Scale Learning. Advances in Neural Information Processing Systems Vol(20):161–168, Edited by J.C. Platt, D. Koller, Y. Singer and S. Roweis.

Breiman, L., Friedman, J., Olshen, R. and Stone, C. (1984). Classification and Regression Trees. Chapman & Hall, New York.

Chang, C. and Lin, C-J. (2001). LIBSVM: A library for support vector machines. Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.

Cristianini, N., and Shawe-Taylor, J. (2000). An Introduction to Support Vector Machinesand Other Kernel-based Learning Methods. Cambridge University Press.

Do, T-N., Lenca, P., Lallich, S. and Pham, N-K. (2009). Classifying Very-high-dimensional Data with Random Oblique Decision Trees. in Advances in Knowledge Discovery and Management, H. Briand, F. Guillet, G. Ritschard, D. Zighed Eds, Springer-Verlag, pp. 39-55.

Drucker, H., Wu, D. and Vapnik, V. (1999). Support vector machines for spam categorization. IEEE Transactions on Neural networks 10(5):1048-1054.

Freund, Y., Schapire, R.E. (1995). A decision-theoretic generalization of on-line learning and an application to boosting. Computational Learning Theory, pp. 23–37.

Good, I. 1965. The Estimation of Probabilities: An Essay on Modern Bayesian Methods. MIT Press.

Goodman, J-G., Cormack, V. and Heckerman, D. (2007). Spam and the ongoing battle for the inbox. Communications of the ACM 50(2):25-33.

Guzella, T-S. and Caminhas, W-M. (2009). A review of machine learning approaches to spam filtering. Expert Systems with Applications 36:10206-10222.

McCallum, A. (1998). Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering. http://www-2.cs.cmu.edu/~mccallum/bow.

Murthy, S., Kasif, S., Salzberg, S. and Beigel, R. (1993). Oc1: Randomized induction of oblique decision trees. Proc. of the 11th National Conference on AI, pp. 322–327.

Quinlan, J. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers.

Sahami, M., Dumais, S., Heckerman, D. and Horvitz, E. 1998. A bayesian approach to filtering junk e-mail. In Learning for Text Categorization Workshop. AAAI Technical Report, WS-98-05.

Sebastiani, F. (2002). Machine Learning in Automated Text Categorization. ACM Computing Surveys 34(1):1-47.

Vapnik, V. (1995). The Nature of Statistical Learning Theory. Springer-Verlag, New York.

Witten, I.H. and Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann.