Văn Thị Xuân Hồng * Đỗ Thanh Nghị

* Tác giả liên hệ (vtxhong@ctu.edu.vn)

Abstract

In this paper, we investigate a learning to rank model called C4.4-kNN for searching experts. This model is based on the bag of words model and also uses the C4.4 algorithm (well-known as a good ranking algorithm) and the k nearest neighbors algorithm (considered as the simplest instance-based learning). In addition, the model also takes into account user-relevance-feedback to improve ranking tasks. The numerical test results on the French speaking data mining conference (EGC) showed that our C4.4-kNN is better than kNN for the assignment task. C4.4-kNN proposes appropriate program committee members for a given paper abstract after a few of clickthrough experts.
Keywords: Learning to rank, Bag of words, k nearest neighbors, C4.4 machine learning algorithm

Tóm tắt

Trong bài viết này chúng tôi đưa ra hướng tiếp cận học xếp hạng cho vấn đề tìm kiếm chuyên gia. Cơ sở dữ liệu chuyên gia được tạo ra từ các tóm tắt bài báo của các chuyên gia trong những năm gần đây. Sau khi tiền xử lý và biểu diễn theo mô hình túi từ. Chúng tôi đã đề xuất tiếp cận học xếp hạng C4.4-kNN dựa trên cây quyết định C4.4 kết hợp với thuật toán k láng giềng kNN có sử dụng phản hồi kết quả của người dùng. Kết quả thực nghiệm từ 87 chuyên gia của hội đồng xét duyệt bài báo của hội thảo khai mỏ dữ liệu cho thấy cách tiếp cận của chúng tôi C4.4-kNN tìm được các chuyên gia để xét duyệt bài báo phù hợp hơn so với chỉ sử dụng giải thuật kNN. Chúng tôi cũng thử nghiệm trên mô hình RF-C4.4-kNN dựa trên rừng cây quyết định C4.4 và kNN cho kết quả tốt hơn so với chỉ sử dụng một cây quyết định như C4.4-kNN.
Từ khóa: Tìm kiếm chuyên gia, học để xếp hạng, mô hình túi từ, k láng giềng, máy học cây quyết định C4.4

Article Details

Tài liệu tham khảo

Agarwal, S., Cortes, C. and Herbrich, R.: Learning to Rank. The workshop proceedings at NIPS’2005, 2005.

Fix, E. and Hodges, J.: Discriminatoiry Analysis: Small Sample Performance. Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA, 1952.

Fortuna, B., Grobelnik, M. and Gunn, S.: PASCAL visualization challenge. 2005.

Good, I.: The Estimation of Probabilities: An Essay on Modern Bayesian Methods. MIT Press, 1965.

Liu, T-Y.: Learning to Rank for Information Retrieval. PO Box 1024 Hanover, MA 02339 USA, 2009.

McCallum, A.: Bow: A Toolkit for Statistical Language Modeling, Text Retrieval, Classification and Clustering. 1998. http://www-2.cs.cmu.edu/~mccallum/bow.

Manning, C. D., Raghavan, P. and Schutze, H.: An Introduction to Information Retrieval. Cambridge University Press Cambridge, 2009.

Provost, F. and Domingos, P.: Tree Induction for Probability-Based Ranking. Machine Learning 52(3):199-215, 2003.

Quinlan, J.: C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers, 1993.

Radlinski, F. and Joachims, T.: Active Exploration for Learning Rankings from Clickthrough Data. Proceedings of the ACM Conference on Knowledge Discovery and Data Mining (KDD), 2007.

Sebastiani, F.: Machine Learning in Automated Text Categorization. ACM Computing Surveys 34(1):1-47, 2002.

Vapnik, V.: The Nature of Statistical Learning Theory. Springer-Verlag, New York, 1995.