Võ Văn Tài * , Nguyễn Hữu Thoại , Lê Thị Kim Cương , Phan Nguyễn Nhật Trang , Tăng Xuân Khánh Trần Đại Từ

* Tác giả liên hệ (vvtai@ctu.edu.vn)

Abstract

This study proposed a genetic algorithm in building cluster for discrete elements, in which the similarity coefficient of cluster was used to evaluate the similarity of the elements, and the improved Davis-Boudin index was used as the objective. Combined with the steps of a traditional cluster analysis algorithm and the operators such as crossover, mutation, and selection of the genetic algorithm, a new cluster analysis algorithm was proposed. The proposed algorithm is detailed with the implementation steps, and illustrated by numerical examples. It is also applied in image recognition, a problem that is still challenging today. The application also shows the potential of this research to many real-world problems related to image recognition.

Keywords: Cluster analysis, distance, discrete data, genetic algorithm

Tóm tắt

Thuật toán di truyền trong xây dựng chùm cho các phần tử rời rạc được đề xuất trong nghiên cứu, trong đó hệ số tương tự chùm được sử dụng để đánh giá sự tương tự của các phần tử và chỉ số Davis-Boudin cải tiến được sử dụng làm mục tiêu. Kết hợp với các bước của một thuật toán phân tích chùm truyền thống và các toán tử lai ghép, đột biến, chọn lọc của thuật toán di truyền, một thuật toán phân tích chùm mới được đề xuất. Thuật toán đề nghị được trình bày chi tiết các bước thực hiện và được minh hoạ bởi ví dụ số. Nó cũng được áp dụng trong nhận dạng ảnh, một vấn đề còn nhiều thách thức hiện nay. Áp dụng cũng cho thấy tiềm năng của nghiên cứu này cho nhiều vấn đề trong thực tế liên quan đến nhận dạng ảnh.

Từ khóa: Dữ liệu rời rạc, khoảng cách, phân tích chùm, thuật toán di truyền

Article Details

Tài liệu tham khảo

Agusti, L., Salcedo, S. S., Jiménez, F. S., Carro, C. L., Del, S. J., & Portilla, F. (2012). A new grouping genetic algorithm for clustering problems. Expert Systems with Applications, 39(10), 9695–9703. https://doi.org/10.1016/j.eswa.2012.02.149

Bouguila, N., & Elguebaly, W. (2009). Discrete data clustering using finite mixture models. Pattern Recognition, 42(1), 33–42. https://doi.org/10.1016/j.patcog.2008.06.022

Chen, J. H., & Hung, W. L. (2015). An automatic clustering algorithm for probability density functions. Journal of Statistical Computation and Simulation, 85(15), 3047–3063. https://doi.org/10.1080/00949655.2014.949715

Davies, D. L., & Bouldin, D. W. (1979). A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2, 224–227. https://doi.org/10.1109/TPAMI.1979.4766909

Ester, M., Kriegel, H. P., Sander, J., & Xu, X. (1986). Adensity-based algorithm for discovering clusters in large spatial databases with noise. In: KDD Proceeding, pp. 226–231.

Haralick, R. M. (1979). Statistical and structur al approaches to texture. In Proceedings of the IEEE, 67(5), 786 – 804. https://doi.org/10.1109/PROC.1979.11328

Hung, W. L., & Yang, J. H. (2016). Automatic clustering algorithm for fuzzy data. Journal of Applied Statistics, 42, 1503–1518. https://doi.org/10.1080/02664763.2014.1001326

Panjwani, D. K., & Healey, G. (1995). Markov random field models for unsupervised segmentation of textured color images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 17(10), 939–954. https://doi.org/10.1109/34.464559

Sheng, W., & Liu, X. (2006). A genetic k-medoids clustering algorithm. Journal of Heuristics, 12(6), 447–466. https://doi.org/10.1007/s10732-006-7284-z

Tai, V.V., & Thao, N. T. (2018). Similar coefficient of cluster for discrete elements. Sankhya B, 80(1), 19–36. https://doi.org/10.1007/s13571-018-0159-0

Tai, V. V., Trung, N. T., Trung V. D., Vinh, H. H., & Thao, N. T. (2017). Modified genetic algorithm based clustering for probability density functions. Journal of Statistical Computation and Simulation, 87(10), 1964–1979. https://doi.org/10.1080/00949655.2017.1300663

Tai V.V., Dinh, P.T., & Dung T.T. (2021). Automatic genetic algorithm in clustering for discrete elements. Communications in Statistics - Simulation and Computation. https://doi.org/10.1080/03610918.2019.1588305

Thao, N. T., & Tai, N. T. (2017). Fuzzy clustering of probability density functions. Journal of Applied Statistics, 44(4), 583–601. https://doi.org/10.1080/02664763.2016.1177502

Zhang, N., Ruan, S., Lebonvallet, S., Liao, Q., & Zhu, Y. (2018). Kernel feature selection to fuse multi-spectral MRI images for brain tumor segmentation. Computer Vision and Image Understanding, 155, 256–269. https://doi.org/10.1016/j.cviu.2010.09.007