Võ Văn Tài * , Trần Trung Tín , Lê Thị Kim Ngọc , Châu Ngọc Thơ Thái Minh Trọng

* Tác giả liên hệ (vvtai@ctu.edu.vn)

Abstract

This paper is to study the classification problem by Bayesian method in which estimating probability density function, and finding prior probability from real data are considered. The research also solves some complex calculations of this method by the built approximation and Matlab procedure. From the above improvements, an algorithm based on Bayesian method to classify a disease is proposed. This algorithm is applied specifically for a chronic kidney disease at the Can Tho Central General Hospital with real data. The outcome shows that the proposed algorithm has given good result in classifying this disease. Furthermore, this result also illustrates the advantages of the proposed method in comparison with the existing methods which are regularly used recently times.
Keywords: Bayesian method, Bayes error, classification problem, logistic regression

Tóm tắt

Bài viết này nghiên cứu bài toán phân loại bằng phương pháp Bayes, trong đó việc ước lượng hàm mật độ xác suất và tìm xác suất tiên nghiệm từ số liệu thực tế được xem xét. Nghiên cứu cũng giải quyết được những tính toán phức tạp của phương pháp này bởi sự xấp xỉ và chương trình Matlab được xây dựng. Từ những cải tiến trên, thuật toán phân loại bệnh bằng phương pháp Bayes được đề xuất. Thuật toán này được áp dụng cụ thể cho một tập dữ liệu thực tế bệnh suy thận mạn tại bệnh viện đa khoa Trung ương Thành phố Cần Thơ. Kết quả cho thấy thuật toán đề nghị đã cho kết quả tốt trong phân loại bệnh này. Kết quả này cũng chứng minh ưu điểm của thuật toán đề xuất so với các thuật toán được áp dụng phổ biến gần đây.
Từ khóa: Bài toán phân loại, Hồi qui logistic, Phương pháp Bayes, Sai số Bayes

Article Details

Tài liệu tham khảo

Cristianini, S. and Shawe, T.J., 2000. An introduction to support vector machines and other kernel-based learning method. Cambridge University, London. 189 pages.

Inman,H. F. and Bradley E. L., 1989. The overlapping coefficient as a measure of agreement between probability distributions and point estimation of the overlap of two normal densities. Commun Statist Theory Method. 18(10): 3851–3871.

Jasra, A., Holmes, C. and Stephens, D., 2005. Markov chain Monte Carlo methods and the label switchingproblem in bayesian mixture modeling. Statistical Science 12: 50–67.

Jan, Y. K., Cheng, C.W. and Shih, Y.H., 2010. Application of logistic regression analysis of home mortgageloan prepayment and default. CIC Express Letters 2: 325–331.

Ghosh, A.K., Chaudhuri, P. and Sengupta, D., 2012. Classification using kernel density estimates. Technometrics 48(1): 377–392.

Miller, G., Inkret, W.C., Little, T.T., Martz, H.F. and Schillaci, M.E., 2011.Baysian prior probability distributions for internal dosimetry. Radiation Protection Dosimetry, 94(4): 347–352.

Pal, N.R. and Bezdek, J.C., 1995. On cluster validity for the fuzzy c-means model. IEEE Transactions on Fuzzy Systems 3(3): 370–379.

Pham–Gia, T.,Turkkan, T.K. and Tai, V. V., 2008. The maximum function in statistical discrimination analysis. Commun.in Stat–Simulation Computation. 37(2): 320–336.

Tai,V. V. and Pham-Gia, T., 2010. Clustering probability distributions. Journal of Applied Statistics 37(11): 1891–1910.

Tai,V. V., 2017. L1-distance and classification problem by bayesian method. Journal of Applied Statistics, 44(3): 385–401.

Tai,V. V., Loc T.P. and Ha, C. N., 2018. Classifying two populations by Bayesian method and applications. Communication in Mathematics and Statistics, 7(2): 141– 161.

Thao,N.T. and Tai, V. V., 2017. Fuzzy clustering of probability density functions. Journal of Applied Statistics, 44(4): 583–601.