Nguyen Ba Diep * , Huynh Xuan Hiep , Tran Nguyen Minh Thu and Pham Nguyen Khang

* Corresponding author (nbdiep@ctu.edu.vn)

Abstract

In this paper, we introduce extended episode model upgraded from episode pattern in time-related data. Based on this model, we present an algorithm that finds all frequently extended episodes from an input event sequence without rescaning. By application using new characteristics of mined extended episodes, we propose an application in the diabetes data*. Experimental results of this article show that the extended episodes contain useful information for prediction models.
Keywords: Data mining in time-related data, episode mining, extended episode

Tóm tắt

Trong bài viết này, chúng tôi giới thiệu mô hình mẫu episode mở rộng phát triển từ mô hình mẫu episode với dữ liệu phụ thuộc vào thời gian. Dựa trên mô hình vừa trình bày, chúng tôi giới thiệu giải thuật khai khoáng mẫu episode mở rộng chỉ duyệt qua chuỗi dữ liệu sự kiện 1 lần. Sử dụng những đặc tính đặc trưng của mẫu episode mở rộng chúng tôi đề xuất một ứng dụng dự đoán trên tập dữ liệu tiểu đường *. Kết quả thực nghiệm của nghiên cứu cho thấy mẫu episode mở rộng chứa nhiều thông tin hỗ trợ mô hình dự đoán.
Từ khóa: Dữ liệu phụ thuộc thời gian, khai khoáng mẫu episode, mẫu episode mở rộng

Article Details

References

R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, A. I. Verkamo: Fast discovery of association rules, in U. M. Fayyed, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (eds.): Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 307–328, 1996.

R. Agrawal, R. Srikant: Fast algorithms for mining association rules in large databases, Proc. 20th VLDB, 487–499, 1994.

R. Agrawal, R. Srikant: Mining sequential patterns, Proc. 11th ICDE, 3–14, 1995.

C. Bettini, S. Wang, S. Jajodia, J.-L. Lin: Discovering frequent event patterns with multiple granularities in time sequences, IEEE Trans. Knowledge and Data Engineering10, 222–237, 1998.

H. Mannila, H. Toivonen, A. I. Verkamo: Discovery of frequent episodes in event sequences, Data Mining and Knowledge Discovery 1, 259–289, 1997.

J. Pei, J. Han, B. Mortazavi-Asi, J. Wang, H. Pinto, Q. Chen, U. Dayal, M.-C. Hsu: Mining sequential patterns by pattern-growth: The PrefixSpan approach, IEEE Trans. Knowledge and Data Engineering16, 1–17, 2004.

R. Srikant, R. Agrawal: Mining sequential patterns: Generalizations and perfor-mance improvements, Proc. 5th EDBT, 3–17, 1996..

S. Tsumoto: Guide to the bacteriological examination data set, in E. Suzuki (ed.): Proc. International Workshop of KDD Challenge on Real-World Data (KDD Challenge 2000), 8–12, 2000.

Ba-Diep Nguyen, Xuan-Hiep Huynh, Julien Blanchard : Phát hiện mẫu tuần tự với kích thước thay đổi bằng giải thuật DYNEPI, Kỷ yếu Hội nghị khoa học 5 năm nghiên cứu khoa học Khoa CNTT Trường Đại học Cần Thơ, 2011.

Katoh, T., Hirata, K., Harao, M.: Mining frequent diamond episodes from event sequences. In: Torra, V., Narukawa, Y., Yoshida, Y. (eds.) MDAI 2007. LNCS (LNAI), vol. 4617, pp. 477–488. Springer, Heidelberg (2007).

Katoh, T., Hirata, K., Harao, M., Yokoyama, S., Matsuoka, K.: Extraction of sectorial episodes representing changes for drug resistant and replacements of bacteria. In: Proc. CME 2007, pp. 304–309 (2007).

Katoh, T., Arimura, H., Hirata, K.: A polynomial-delay polynomial-space algorithm for extracting frequent diamond episodes from event sequences. In: Theeramunkong, T., Kijsirikul, B., Cercone, N., Ho, T.-B. (eds.) PAKDD 2009. LNCS (LNAI), vol. 5476, pp. 172–183. Springer, Heidelberg (2009).

Katoh, T., Hirata, K.: A simple characterization on serially constructible episodes. In: Washio, T., Suzuki, E., Ting, K.M., Inokuchi, A. (eds.) PAKDD 2008. LNCS (LNAI), vol. 5012, pp. 600–607. Springer, Heidelberg (2008).

Katoh, T., Hirata, K.: Mining frequent elliptic episodes from event sequences. In: Proc. 5th LLLL, pp. 46–52 (2007).

1Q. Yang and X. Wu. 10 Challenging Problems in Data Mining Research. Journal of Information Technology & Decision Making 5(4):597-604, 2006.