Trần Cao Đệ * Phạm Nguyên Khang

* Tác giả liên hệ (tcde@ctu.edu.vn)

Abstract

Text document classification, basically, can be considered as a classification problem. Automatic text document classification is to assign a label to a new document based on the similarity of the document with labeled documents in the training set. Many machine learning and data mining methods have been applied in text document classification such as: Naive Bayes, decision tree, k ? Nearest neighbor, neural network,? Support vector machine (SVM) is an efficient classification algorithm. It has been applied to machine learning and recognition field. However, it is still not efficient in applying to text document classification because, by the nature, this problem often deals with a large feature space. This paper focuses on applying SVM to text document classification and compares the efficiency of the method with the one of decision tree, a traditional classification algorithm. The research illustrates that SVM along with the feature selection based on the singular value decomposition (SVD) is much better than decision tree method.
Keywords: Support vector machine (SVM), text document classification, single value decomposition (SVD)

Tóm tắt

Bài toán phân loại văn bản, thực chất, có thể xem là bài toán phân lớp. Phân loại văn bản tự động là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức độ tương tự của văn bản đó so với các văn bản đã được gán nhãn trong tập huấn luyện. Nhiều kỹ thuật máy học và khai phá dữ liệu đã được áp dụng vào bài toán phân loại văn bản, chẳng hạn: phương pháp quyết định dựa vào Bayes ngây thơ (Naive Bayes), cây quyết định (decision tree), k?láng giềng gần nhất (KNN), mạng nơron (neural network),? Máy học vectơ hỗ trợ (SVM) là một giải thuật phân lớp có hiệu quả cao và đã được áp dụng nhiều trong lĩnh vực khai phá dữ liệu và nhận dạng. Tuy nhiên SVM chưa được áp dụng một cách có hiệu quả vào phân loại văn bản vì đặc điểm của bài toán phân loại văn bản là không gian đặc trưng thường rất lớn. Bài viết này nghiên cứu máy học vector hỗ trợ (SVM), áp dụng nó vào bài toán phân loại văn bản và so sánh hiệu quả của nó với hiệu quả của giải thuật phân lớp cổ điển, rất phổ biến đó là cây quyết định. Nghiên cứu chỉ ra rằng SVM với cách lựa chọn đặc trưng bằng phương pháp tách giá trị đơn (SVD) cho kết quả tốt hơn so với cây quyết định.
Từ khóa: Cây quyết định, máy học vector hỗ trợ, phân loại văn bản, tách giá trị đơn

Article Details

Tài liệu tham khảo

Nguyễn Linh Giang, Nguyễn Mạnh Hiển, Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM. Tạp chí CNTT&TT, Tháng 6 năm 2006.

Nguyễn Ngọc Bình, “Dùng lý thuyết tập thô và các kỹ thuật khác để phân loại, phân cụm văn bản tiếng Việt”, Kỷ yếu hội thảo ICT.rda’04. Hà nội 2004.

Nguyễn Linh Giang, Nguyễn Duy Hải, “Mô hình thống kê hình vị tiếng Việt và ứng dụng”, Chuyên san “Các công trình nghiên cứu, triển khai Công nghệ Thông tin và Viễn thông, Tạp chí Bưu chính Viễn thông, số 1, tháng 7-1999, trang 61-67. 1999

Huỳnh Quyết Thắng, Đinh Thị Thu Phương, “Tiếp cận phương pháp học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai văn bản trong mô hình vectơ”, Kỷ yếu Hội thảo ICT.rda’04, trang 251-261, Hà Nội 2005.

Đỗ Phúc, Nghiên cứu ứng dụng tập phổ biến và luật kết hợp vào bài toán phân loại văn bản tiếng Việt có xem xét ngữ nghĩa, Tạp chí phát triển KH&CN, tập 9, số 2, pp. 23-32, năm 2006

Chih-Hao Tsai, MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm. http://technology.chtsai.org/MMSEG/, 2000.

Keh-Jiann Chen, Shing-Huan Liu, Word Identification for Mandarin Chinese sentences, proceedings of Coling 92, Nantes, pp. 23-28, 1992.

Quinlan J., C4.5: Programs for Machine Learning, Morgan Kaufman Publishers, 1993.

Đỗ Thanh Nghị, Khai mỏ dữ liệu – minh họa bằng ngôn ngữ R (chương 4), NXB Đại học Cần Thơ, 2010.

M.W. Berry, Z. Drmac, E.R. Jessup; Matrices, Vectơ Spaces and Information Retrieval; Society for Industrial and Applied Mathematics, Vol. 41, No. 2, 1999. pp. 335-362.

T. Letsche M. Berry; Large-scale Information Retrieval with Latent Semantic Analysis. SIGIR 2001, pp. 19-25

Thorsten Joachims. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. In European Conference on Machine Learning (ECML), 1998.

V.Vapnik. The Nature of Statistical Learning Theory. Springer, NewYork, 1995.

Weka, http://www.cs.waikato.ac.nz/ml/weka/