Huỳnh Phụng Toàn * , Nguyễn Vũ Lâm , Nguyễn Minh Trung Đỗ Thanh Nghị

* Tác giả liên hệ (hptoan@ctu.edu.vn)

Abstract

Our investigation aims to propose random trees to classify gene data which have very small amount of samples in very high dimensions and noise. The random forest algorithm proposed by Breiman is usually suited for classifying very-high-dimensional datasets. However, the classical majority rule of a decision tree degrades the classification accuracy of random forests. We have proposed to improve the classification performance of random forests by using in each leaf of the tree a local class labeling rule instead of the majority rule. The numerical test results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd/ showed that that our proposal gives good classification results compared with classical random forests and support vector machine (SVM) in terms of Precision, Recall, F1 and Accuracy.
Keywords: Decision trees, Random forests, k nearest neighbors

Tóm tắt

Trong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữ liệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trong thực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểu dữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.

Từ khóa: Phân loại dữ liệu gien, giải thuật học cây quyết định, rừng ngẫu nhiên, k láng giềng

Article Details

Tài liệu tham khảo

A.J. Grove and D. Schuurmans. Boosting in the limit: Maximizing the margin of learned ensembles. In Proceedings of the Fifteenth National Conference on Artificial Intelligence (AAAI-98), 1998, pp. 692–699.

C.C. Chang and C.J. Lin. Libsvm – a library for support vector machines. 2001. http://www.csie.ntu.edu.tw/cjlin/libsvm.

C.V. van Rijsbergen. Information Retrieval. Butterworth, 1979.

D. Wolpert. Stacked generalization. Neural Networks 5, 1992, pp. 241–259.

Fix, E. and Hodges, J.: Discriminatoiry Analysis: Small Sample Performance. Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA, 1952.

J.R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.

L. Breiman, J.H. Friedman, R.A. Olshen and C. Stone. Classification and Regression Trees. Wadsworth International, 1984.

L. Breiman. Arcing classifiers. The annals of statistics, 26(3): 801–849, 1998.

L. Breiman. Bagging predictors. Machine Learning 24(2):123–140, 1996.

L. Breiman. Random forests. Machine Learning 45(1):5–32, 2001.

L. Jinyan and L. Huiqing. Kent ridge bio-medical dataset repository. 2002, http://datam.i2r.a-star.edu.sg/datasets/krbd/.

Q. Yang and X. Wu. 10 Challenging Problems in Data Mining Research. Journal of Information Technology and Decision Making 5(4):597-604, 2006.

V. Vapnik. The Nature of Statistical Learning Theory. Springer-Verlag, 1995.

W. Buntine. Learning classification trees. Statistics and Computing 2, 1992, pp. 63–73.

Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Computational Learning Theory, 1995, pp. 23–37.