Đỗ Thanh Nghị * , Phạm Nguyên Khang , Trịnh Trung Hưng Nguyễn Minh Trung

* Tác giả liên hệ (dtnghi@ctu.edu.vn)

Abstract

This paper presents data mining approach for detecting the key courses which affect the learning outcomes of information technology students. We collect the study results of undergraduate students studying information technology programs at Can Tho University; and then the pre-processing step is to transform the dataset into structured one (i.e. the table format) suited for the input of data mining algorithms used in the next step. The random forest model is learnt from the dataset to extract the important features (the key courses). The experimental results showed that the key courses extracted by our proposed approach provide useful information to educational managers to improve the training efficiency.
Keywords: Study program of information technology, Data mining, Random forests, Feature extraction

Tóm tắt

Trong bài này, chúng tôi giới thiệu tiếp cận khai mỏ dữ liệu để phát hiện môn học quan trọng ảnh hưởng đến kết quả học tập của sinh viên ngành công nghệ thông tin (CNTT). Chúng tôi tiến hành sưu tập dữ liệu học tập của sinh viên tốt nghiệp ngành CNTT tại Trường Đại học Cần Thơ, sau đó thực hiện bước tiền xử lý dữ liệu, đưa dữ liệu về cấu trúc bảng. Chúng tôi đề xuất sử dụng giải thuật rừng ngẫu nhiên học từ dữ liệu để rút trích các môn học quan trọng trong chương trình đào tạo ngành CNTT. Kết quả thu được sau khi rút trích có thể cung cấp thông tin hữu ích cho các nhà quản lý giáo dục trong việc tổ chức giảng dạy để nâng cao hiệu quả đào tạo.
Từ khóa: Chương trình đào tạo ngành CNTT, Khai mỏ dữ liệu, Rừng ngẫu nhiên, Rút trích đặc trưng

Article Details

Tài liệu tham khảo

R.Agrawal, T. Imielinski and A. Swami.: Mining Associations between Sets of Items in Massive Databases. in proc. of ACM-SIGMOD International Conference on Management of Data, Washington, USA, pp. 207-216 (1993).

L. Breiman, J. Friedman, R. Olshen, C. Stone.: Classification and Regression Trees. Chapman & Hall (1984).

Breiman, L.: Bagging predictors. Machine Learning24(2):123–140 (1996).

Breiman, L.: Random forests. Machine Learning45(1): 5–32 (2001).

R. Bukralia, A-V. Deokar, S. Sarnikar, M. Hawkes.: Using Machine Learning Techniques in Student Dropout Prediction. Chapter 7 in Cases on Institutional Research Systems, Hansel Burley Eds., IGI Global, pp. 117-131 (2012).

U. Fayyad, G. Piatetsky-Shapiro, P. Smyth.: From Data Mining to Knowledge Discovery in Databases. in AI Magazine, 17(3): 37-54 (1996).

T. Hastie, J-H. Friedman, R. Tibshirani.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer (2001).

R. Ihaka and R. Gentleman. A language for data analysis and graphics. Journal of Computational and Graphical Statistics, 5(3): 299-314 (1996).

J.MacQueen.: Some methods for classification and analysis of multivariate observations. in proc. of 5th Berkeley Symposium on Mathematical Statistics and Probability, Berkeley, University of California PressVol.1, pp. 281-297 (1967).

T-N. Nguyen, L. Drumond, T. Horváth, L. Schmidt-Thieme.: Multi-Relational Factorization Models for Predicting Student Performance. in proc. of the KDD 2011 Workshop on Knowledge Discovery in Educational Data (2011).

A-K. Pal, S. Pal.: Analysis and Mining of Educational Data for Predicting the Performance of Students. in International Journal of Electronics Communication and Computer EngineeringVol.4(5): 2278-4209 (2013).

J. Pearl.: Bayesian Networks: a Model of Self-Activated Memory for Evidential Reasoning. in proc. of Cognitive Science Society, UC Irvine, pp. 329-334 (1985).

J.R. Quinlan.: C4.5: Programs for Machine Learning. Morgan Kaufmann, San Mateo, CA (1993).

V. Vapnik.: The Nature of Statistical Learning Theory. Springer-Verlag (1995).

L.A. Zadeh: Fuzzy sets. Information and Control, 8(3): 338–353 (1965).

Lê Thanh Minh.: Khai khoáng điểm thi tốt nghiệp phục vụ đánh giá phân loại học sinh. Luận văn Thạc sĩ. Đại học Khoa học Tự nhiên TP.HCM (2002).

Nguyễn Quốc Thông.: Phát triển một số ứng dụng khai thác dữ liệu vào giáo dục đào tạo. Luận văn Thạc sĩ. Đại học Khoa học Tự nhiên TP.HCM (2002).

Nguyễn Thái Nghe.: Một phân tích giữa các kỹ thuật trong dự đoán kết quả học tập. Kỷ yếu Hội thảo quốc gia lần thứ 10 về công nghệ thông tin, trang 19-31 (2007).

Phan Đình Thế Huân.: Nghiên cứu và ứng dụng phương pháp khai mỏ luật kết hợp trên dữ liệu giáo dục. Luận văn Thạc sĩ. Đại học Khoa học Tự nhiên TP.HCM (2009).

Nguyễn Thị Vân Hảo.: Xây dựng hệ thống dự đoán kết quả tốt nghiệp phổ thông trung học. Luận văn Thạc sĩ. Đại học Lạc Hồng, Đồng Nai (2011).

Nguyễn Đăng Nhượng: Khai phá dữ liệu về kết quả học tập của học sinh trường Cao đẳng nghề Văn Lang Hà Nội. Luận văn Thạc sĩ. Đại học Công nghệ, ĐHQGHN (2012).