Huỳnh Phước Hải * Nguyễn Văn Hòa

* Tác giả liên hệ (huynhphuochai_toasoanctu@gmail.com)

Abstract

The next generation sequencing (NGS) technologies are capable of producing low-cost data on a giga base-pairs scale in a single run, which usually includes millions of sequencing reads. This revolution allows launching many genome sequencing and re-sequencing projects for various biological applications, such as detection single-nucleotide polymorphism, and assessment of biodiversity. DNA Metabarcoding provides a door to identify the species in a large biological sequence dataset. Chloroplast genome is used as a genetic characteristic to identify species of plants. However, the traditional method to determine chloroplast genome sequence must use a sequence reference. In this paper, we propose a new approach to construct chloroplast genome sequences from raw data without using a reference sequence. To evaluate our approach, we compare the experimental result with four reference chloroplast genome sequences which were determined by biologists. The results show that the chloroplast genome sequences established by our approach are the same as the chloroplast reference sequences.
Keywords: DNA barcoding, DNA sequencing, genome assembly, chloroplast genome

Tóm tắt

Công nghệ xác lập trình tự gien thế hệ mới có khả năng tạo ra lượng dữ liệu khổng lồ, hàng giga bp trong một lần chạy, với chi phí ngày càng thấp. Bước tiến này cho phép thực hiện nhiều dự án giải trình tự ở các loài chưa được giải hệ gien và cả ở các loài đã giải mã trình tự nhằm thực hiện các ứng dụng sinh học phân tử khác nhau như dữ liệu đa hình đơn SNP, đánh giá sự đa dạng sinh học. Trong đó, Meta barcoding là một dự án cho phép xác định loài thực vật từ những kho dữ liệu trình tự khổng lồ. Trong nghiên cứu sinh học thực vật bộ gien chloroplast (Cp) là cơ sở quan trọng để xây dựng mã vạch sinh học dùng để định danh loài, phân loại và phân tích phát sinh loài. Tuy nhiên, phương pháp xây dựng bộ gien Cp truyền thống có hạn chế phải sử dụng mẫu gien tham chiếu. Phương pháp này không giải quyết được được yêu cầu mẫu dữ liệu đầu vào là dữ liệu thô của dự án Metabarcoding. Trong bài viết này, chúng tôi đề xuất quy trình lắp ráp bộ gien Cp cải tiến để lập trình tự bộ gien Cp từ các dữ liệu thô và không cần sử dụng gien mẫu để tham chiếu. Để đánh giá quy trình, trong thực nghiệm chúng tôi xây dựng bộ gien Cp từ bốn tập dữ liệu gien và so sánh kết quả thực nghiệm với các mẫu gien Cp đã được các nhà sinh học xây dựng.  
Từ khóa: Mã vạch ADN, chuỗi ADN, xác lập trình tự, ADN, chuỗi ADN ngắn, bộ gien Chloroplast

Article Details

Tài liệu tham khảo

Altschul, S. F., (1990), Basic Local Alignment Search Tool. Journal of Molecular Biology 215, pp. 403–410.

Andersen Kenneth and et al. (2012). Meta-barcoding of ‘dirt’ DNA from soil reflects vertebrate biodiversity. Molecular Ecology, 21 pp. 1966-1979.

Bausher MG, Singh ND, Lee S-B, Jansen RK, Daniell H. The complete chloroplast genome sequence of Citrus sinensis (L.) Osbeckvar 'Ridge Pineapple': organization and phylogenetic relationships to other angiosperms. BMC Plant Biology 2006: 6:21-29.

Boetzer M, Henkel CV, Jansen HJ, Butler D, Pirovano W., (2011), Scaffolding pre-assembled contigs using SSPACE, Bioinformatics. Volume 27, Issue 4, pp. 578-579.

Coissac E., Riaz T., Puillandre N. (2012), Bioinformatic challenges for DNA metabarcoding of plants and animals. Molecular Ecology, 21, pp. 1834-1847.

Hai DT, Thanh ND, Trang PTM, Quang LS, Hang PTT, Cuong DC, Phuc HK, Duc NH, Dong DD, Minh BQ, Son PB and Vinh LS (2015) Whole genome analysis of a Vietnamese trio. J. Biosci. 40 113–124.

Dennis A. Benson, et al. (2015). Genbank, Nucleic Acids Research, Vol. 13.

Guillaume Rizk, Dominique Lavenier, RayanChikhi, (2012), DSK: k-mer counting with very low memory usage, Bioinformatics journal.

Haskin G., Fernald, Emidio Capriotti, Roxana Daneshjou, Konrad J. Karczewski, and Russ B. Altman (2011). Bioinformatics challenges for personalized medicine. Bioinformatics 27 (13), pp. 1741-1748.

Howe C.J, Barbrook A.C, Koumandou V.L, Nisbet R.E.R, Symington H.A, Wightman T.F 2003 Evolution of the chloroplast genome. Phil. Trans. R. Soc. B. 358, 99–106. doi:10.1098/rstb.2002.1176.

Idury, R.M., Waterman, M.S (1995). A new algorithm for DNA sequence assembly. Journal of Computational Biology 2 (2), pp. 291-306.

Li R., Zhu H., Ruan J., et al., (2010). De novo assembly of human genomes with massively parallel short read sequencing, Genome Research, volume 20, number 2, pp. 265–272.

Li R., Li Y., Fang X., Yang H., Wang J., Kristiansen K., Wang J., (2009). SNP detection for massively parallel whole-genome resequencing. Genome Research 19, pp. 1124-1132.

Pagani I, Liolios K, Jansson J, Chen IM, Smirnova T, Nosrat B, Markowitz VM, Kyrpides NC., (2012). The Genomes OnLine Database (GOLD) v.4: status of genomic and metagenomic projects and their associated metadata. Nucleic Acids Res; 40(Database issue):D571-9.

Pierre Peterlongo and RayanChikhi, (2012), Mapsembler, targeted and micro assembly of large NGS datasets on a desktop computer. BMC Bioinformatics. Vol 13.

Rayan Chikhi and Guillaume Rizk, (2012), Space-efficient and exact de Bruijn graph representation based on a Bloom filter, Algorithms in Bioinformatics, Vol 7534, 2012, pp. 236-248.

Salmela L., (2010). Correction of sequencing errors in a maxed set of reads. Bioinformatics 26 (10) pp. 1284-1290.

Saski C, Lee S-B, Daniell H, Wood TC, Tomkins J, Kim H-G, Jansen RK. Complete chloroplast genome sequence of Glycine max and comparative analyses with other legume genomes. Plant Mol Biol. 2005; 59:309–322.

Shendure J. and Ji H., (2008). Next-generation DNA sequencing, Nature biotechnology, volume 26, number 10, pp. 1135-1145.