RỪNG NGẪU NHIÊN CẢI TIẾN CHO PHÂN LOẠI DỮ LIỆU GIEN
Abstract
Tóm tắt
Trong bài viết này, chúng tôi đề xuất giải thuật rừng ngẫu nhiên cải tiến cho phân lớp dữ liệu gien thường có rất ít các phần tử dữ liệu nhưng số chiều rất lớn và có nhiễu. Trong thực tế, giải thuật rừng ngẫu nhiên của Breiman thường được sử dụng cho phân lớp kiểu dữ liệu như dữ liệu gien. Tuy nhiên, do sử dụng luật bình chọn số đông ở nút lá của cây quyết định làm dự báo của rừng ngẫu nhiên bị giảm. Để cải thiện kết quả dự báo của rừng ngẫu nhiên, chúng tôi đề xuất thay thế luật bình chọn số đông bởi luật gán nhãn cục bộ. Kết quả thử nghiệm trên các tập dữ liệu gien từ site datam.i2r.a-star.edu.sg/datasets/krbd/ cho thấy rằng giải thuật rừng ngẫu nhiên cải tiến do chúng tôi đề xuất cho kết quả phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.
Article Details
Tài liệu tham khảo
A.J. Grove and D. Schuurmans. Boosting in the limit: Maximizing the margin of learned ensembles. In Proceedings of the Fifteenth National Conference on Artificial Intelligence (AAAI-98), 1998, pp. 692–699.
C.C. Chang and C.J. Lin. Libsvm – a library for support vector machines. 2001. http://www.csie.ntu.edu.tw/cjlin/libsvm.
C.V. van Rijsbergen. Information Retrieval. Butterworth, 1979.
D. Wolpert. Stacked generalization. Neural Networks 5, 1992, pp. 241–259.
Fix, E. and Hodges, J.: Discriminatoiry Analysis: Small Sample Performance. Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA, 1952.
J.R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993.
L. Breiman, J.H. Friedman, R.A. Olshen and C. Stone. Classification and Regression Trees. Wadsworth International, 1984.
L. Breiman. Arcing classifiers. The annals of statistics, 26(3): 801–849, 1998.
L. Breiman. Bagging predictors. Machine Learning 24(2):123–140, 1996.
L. Breiman. Random forests. Machine Learning 45(1):5–32, 2001.
L. Jinyan and L. Huiqing. Kent ridge bio-medical dataset repository. 2002, http://datam.i2r.a-star.edu.sg/datasets/krbd/.
Q. Yang and X. Wu. 10 Challenging Problems in Data Mining Research. Journal of Information Technology and Decision Making 5(4):597-604, 2006.
V. Vapnik. The Nature of Statistical Learning Theory. Springer-Verlag, 1995.
W. Buntine. Learning classification trees. Statistics and Computing 2, 1992, pp. 63–73.
Y. Freund and R. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. Computational Learning Theory, 1995, pp. 23–37.