Nguyễn Văn Hòa * Nguyễn Văn Đông

* Tác giả liên hệ (nvhoa@nomail.com)

Abstract

Today with the development of DNA sequencing technology, we have obtained a large amount of DNA sequences in a short time with low cost. Specially, the next-generation DNA sequecing can generate a huge amount of short DNA sequences, called short reads with length from 30 to 100 bp. The short reads have an error rate between 1% and 2%. Therefore, the error reads must be corrected before being assembled into the complete genome. There are several proposed algorithms for correcting the error reads such as SHREC and SOAP de Novo. However, SHREC needs a long computation time to correct errors while SOAP de Novo requires very high memory usage. In this paper, we present our algorithm (RCorrector) based on the index structure of KMER for detecting and correcting error reads. Compared to the SHREC algorithm, the RCorrector algorithm provides a speed up from 3 to 7 with the same sensitivity and specificity.
Keywords: DNA sequence, DNA sequencing, short read, kmer, error correction

Tóm tắt

Ngày nay với sự tiến bộ của kỹ thuật xác lập trình tự ADN (DNA Sequencing) chúng ta có thể tạo ra một số lượng lớn các chuỗi ADN trong khoảng thời gian ngắn với chi phí thấp. Đặc biệt thế hệ xác lập trình tự mới hiện nay tạo ra số lượng rất lớn chuỗi ADN ngắn, được gọi là short read, với chiều dài từ 30 đến 100 nulcotide. Các read này có tỉ lệ lỗi từ 1% đến 2%. Do đó các read lỗi này phải được sửa lỗi trước khi được lắp ráp thành bộ gien ADN hoàn chỉnh. Nhiều giải thuật sửa lỗi đã được đề xuất như SHREC, SOAP de Novo. Nhưng những giải thuật này vẫn còn những hạn chế như cần dung lượng bộ nhớ lớn hoặc thời gian sửa lỗi khá nhiều. Trong bài báo này chúng tôi đề xuất giải thuật hiệu chỉnh lỗi, được đặt tên là RCorrector, dựa trên cấu trúc chỉ mục kmer nhằm phát hiện lỗi và sửa lỗi trực tiếp trên các read. So sánh với giải thuật SHREC trên 8 tập dữ liệu, RCorrector đạt được hiệu suất sửa lỗi thông qua hai đặc trưng specificity và sensitivity là tương đương với SHREC nhưng nhanh hơn SHREC từ 3 đến 7 lần.
Từ khóa: chuỗi ADN, xác lập trình tự ADN, chuỗi ADN ngắn, chỉ mục, sửa lỗi

Article Details

Tài liệu tham khảo

Guy Haskin Fernald, Emidio Capriotti, Roxana Daneshjou,Konrad J. Karczewski, and Russ B. Altman. Bioinformatics challenges for personalized medicine. Bioinformatics (2011) 27 (13): 1741-1748

Li R., Zhu H., Ruan J., et al., De novo assembly of human genomes with massively parallel short read sequencing, Genome Research, volume 20, number 2, pp: 265–272, 2010.

Monya Baker, De novo genome assembly: what every biologist should know, Nature, volume 9, pp:333–337, 2012.

Pop M., Salzberg S. L., Bioinformatics challenges of new sequencing technology, Trends in Genetics, 24 (3), pp:142-149, 2008.

Salmela L., Correction of sequencing errors in a maxed set of reads. Bioinformatics 26(10) pp:1284-1290, 2010.

Sanger, F. et al. Nucleotide sequence of bacteriophage phi X174 DNA. Nature 265, 687–695 (1977).

Shendure J. and Ji H., Next-generation DNA sequencing, Nature biotechnology, volume 26, number 10, 1135-1145, 2008.

Schröder J., Schröder H., Simon J. P., Sinja R. and Schmidt B., SHREC: A short-read error correction method, Genome Analysis, volume 25, number 17, 2157-2163, 2009.

Tammi M. T., Arner E., Kindlund E., Andersson B., Correcting errors for shotgun sequencing, Nucleic Acid Research, 31, pp:4663-4672, 2003.

V.H. Nguyen, D. Lavenier, PLAST: parallel local alignment search tool for database comparison, BMC Bioinformatics 2009 10(329).