Luu Tien Dao * , Au Tan Tai , Tran Nguyen Minh Thu and Vu Anh Phap

* Corresponding author (ltdao@ctu.edu.vn)

Abstract

The Mekong Delta in southern Vietnam is facing climate change and sea level rise. A solution is to quickly and accurately create new high-quality rice varieties that boost yield and adapt well to biological and non-biological factors, especially well-adapt to current harsh conditions. Since 1976, Can Tho University has collected and stored most of traditional seasonal rice varieties of the Mekong Delta. At the moment, Mekong Delta Development and Research Institute of Can Tho University has stored more than 2,000 rice variety samples. They are valuable gene resources that can be used for preserving, exploiting, employing, and creating rice varieties. However, it is possible that there are similarities in these 2,000 samples for some rice varieties. In this paper, clustering techniques are used to create tools for rice variety experts to (i) identify similar samples and (ii) analyze their similarity coefficients.
Keywords: Data mining, clustering, rice varieties

Tóm tắt

Vùng Đồng bằng sông Cửu Long (ĐBCSL) đang ứng phó với biến đổi khí hậu, nước biển dâng. Vấn đề cấp bách đặt ra là cần tìm các giải pháp chọn tạo nhanh và chính xác giống lúa mới, có năng suất, chất lượng cao, chống chịu các tác nhân sinh học và phi sinh học, đặc biệt là thích ứng với điều kiện khí hậu cực đoan đang diễn ra phức tạp. Từ năm 1976 đến nay, Trường Đại học Cần Thơ đã sưu tập và lưu giữ hầu hết các giống lúa mùa cổ truyền của vùng ĐBSCL. Hiện tại, Viện Nghiên cứu Phát triển ĐBSCL - Trường Đại học Cần Thơ đã lưu giữ được khoảng 2.000 mẫu giống lúa. Đây là nguồn tài nguyên gen quý giá phục vụ cho công tác bảo tồn, khai thác, sử dụng và chọn tạo giống lúa. Tuy nhiên, trong 2.000 mẫu giống lúa này có nhiều giống tương đồng với nhau do thu thập ở địa phương khác nhau. Nghiên cứu này ứng dụng các giải thuật gom nhóm dữ liệu (Clustering) để tạo ra phần mềm hỗ trợ cho các chuyên gia về giống lúa (i) phát hiện ra các mẫu lúa giống nhau và (ii) đánh giá được hệ số tương đồng giữa các giống lúa.
Từ khóa: Gom cụm dữ liệu, giống lúa, khai khoáng dữ liệu

Article Details

References

Đoàn Thanh Quỳnh, Nguyễn Thị Hảo, Vũ Thị Thu Hiền và Trần Văn Quang, 2016. Đánh giá đa dạng di truyền nguồn gen lúa nếp địa phương dựa trên kiểu hình và chỉ thị phân tử. Tạp chí Khoa học Nông nghiệp Việt Nam. Tập 14, số 4: 527–538.

Đoàn Thị Thùy Linh và Nguyễn Văn Khoa, 2013. Đa dạng di truyền một số mẫu giống lúa địa phương vùng Tây Bắc dựa trên đặc điểm hình thái. Hội nghị khoa học toàn quốc về sinh thái và tài nguyên sinh vật lần thứ 5, 18/10/2013, Hà Nội, Việt Nam. Nhà xuất bản Nông nghiệp. Hà Nội, 1132–1139.

Exeter Software. NTSYSpc, Numerical Taxonomy System, truy cập ngày 09/10/2017. Địa chỉ: http://www.exetersoftware.com/cat/ntsyspc/ntsyspc.html

IRRI, 1996. Standard Evaluation System for Rice. Genetic Resources Center. International Rice Research Institute. Philippines.

Kaufman, L., Rousseeuw, P.J., 2005. Finding groups in data : an introduction to cluster analysis, Wiley.

Lê Thị Minh Thảo, Nguyễn Thị Ảnh, Trần Thanh Tân, Phạm Quang Tuân và Vũ Văn Liết, 2014. Phân tích đa dạng di truyền dựa trên kiểu hình và chỉ thị phân tử SSR và đánh giá khả năng chịu hạn của các dòng ngô nếp tự phối - phục vụ phát triển ngô nếp cho các tỉnh miền núi phía Bắc. Tạp chí Khoa học và Phát triển. Tập 12, số 3: 285–297.

Macqueen, J.B., 1967. Some methods for classification and analysis of multivariate observations. In Procedings of the Fifth Berkeley Symposium on Math, Statistics, and Probability. University of California Press, pp. 281–297.

Nguyễn Lộc Hiền, Trần Thanh Xuyên, Trần Thị Bích Phương và Tadashi Yoshihashi, 2010. Sự đa dạng di truyền của các giống đậu nành rau Nhật Bản. Tạp chí Khoa học Trường Đại học Cần Thơ. 16a: 51–59.

Nisbet, R., Elder, J., and Miner, G, 2009. Handbook of Statistical Analysis and Data Mining Applications. Burlington, MA: Academic Press (Elsevier).

Phạm Thị Ngọc, Nguyễn Quốc Trung, Vũ Văn Liết, 2016. Phân tích đa dạng di truyền của các mẫu giống đậu cô ve bằng chỉ thị hình thái và chỉ thị phân tử SSR. Tạp chí Khoa học Nông nghiệp Việt Nam. Tập 14, số 12: 1874–1885.

Rohlf, F.J., 1998. NTSYS-pc: numerical taxonomy and multivariate analysis system, version 2.02e. Setauket: Applied Biostatistics Inc., Exeter Software.

Trần Thị Lương, Lưu Minh Cúc và Nguyễn Đức Thành, 2013. Phân tích quan hệ di truyền của một số giống lúa đặc sản, chất lượng, trồng phổ biến ở Việt Nam bằng chỉ thị phân tử SSR. Tạp chí Sinh học. 35(3): 348–356.

Vũ Thị Thu Hiền, 2012. Đa dạng di truyền dựa trên đặc điểm hình thái của các mẫu giống lúa có nguồn gốc khác nhau. Tạp chí Khoa học và Phát triển. Tập 10, số 6: 844–852.