Tran Cao De * , Le Van Lam , Tran Cao Tri , Bui Vo Quoc Bao and Nguyen Gia Hung

* Corresponding author (


Plagiarism is known as a serious concern in academic environment. Beside strict policy applied to plagiarist, there could be some kind of tools to help both educators and students prevent it. There are commercial products produced to detect plagiarism. However, these products are too expensive to educators in Vietnam and they have not given any proof whether these products work well in Vietnamese. Moreover, there are some detection methods available that could be a good choice to work in Vietnamese academic environment. However, these products have their own detection methods and these methods could not be changed. In addition, scalability is also an important feature for a plagiarism detection system because the number of documents in database is very large and increases rapidly. In this paper, we present a plagiarism detection system to detect plagiarism that have three above features: working on one’s own database, flexibility, and scalability.
Keywords: Plagiarism, plagiarism detection system, plagiarism detector

Tóm tắt

Đạo văn được biết đến như một vấn nạn trong môi trường học thuật. Bên cạnh các chế tài nghiêm ngặt cho người đạo văn, cần có những công cụ hiệu quả để ngăn chặn, không để xảy ra tình trạng đạo văn trong trường đại học và trong sinh viên. Đã có nhiều ứng dụng được xây dựng để phát hiện đạo văn. Tuy nhiên, các sản phẩm này thường là khá đắt đỏ và chưa được kiểm chứng có thực sự phù hợp với nguồn tài liệu tiếng Việt hay không. Chúng thường dựa trên các thuật toán phát hiện đạo văn của riêng mình và thường thì không thể bổ sung hay tùy biến nhằm phù hợp với môi trường và ngôn ngữ tiếng Việt. Ngoài ra, khả năng mở rộng cũng là một tính năng quan trọng đối với một hệ thống phát hiện đạo văn vì số lượng tài liệu trong cơ sở dữ liệu là rất lớn và tăng lên nhanh chóng. Trong bài báo này, chúng tôi trình bày một hệ thống phát hiện sao chép để phát hiện đạo văn với các tính năng quan trọng: làm việc trên một cơ sở dữ liệu riêng, lớn của một tổ chức như trường đại học; linh hoạt, dễ mở rộng; đáp ứng hiệu năng tính toán mong đợi. Chúng tôi đề xuất giải pháp sử dụng hệ thống phân tán, sử dụng công nghệ NoSQL, lập chỉ mục nghịch đảo với công nghệ Hyperdex. Việc tính toán xử lí trong hệ thống là tính toán song song được trên nền tảng công nghệ JPPF.
Từ khóa: Đạo văn, phát hiện sao chép, hệ thống phân tán, tính toán hiệu năng cao, chỉ mục nghịch đảo

Article Details


Barrett, R. and J. Malcolm, 2006. Embedding plagiarism education in the assessment process. International Journal for Educational Integrity 2(1).

Culwin, F., 2006. An active introduction to academic misconduct and the measured demographics of misconduct. Assessment & Evaluation in Higher Education 31(2): 167-182.

Ercegovac, Z. and J. V. Richardson, 2004. Academic Dishonesty, Plagiarism Included, in the Digital Age: A Literature Review. College & Research Libraries 65(4): 301-318.

Gipp, B., 2014. Plagiarism Detection. Citation-based Plagiarism Detection, Springer Fachmedien Wiesbaden: 9-42.

Kasprzak, J. and M. Brandejs, 2010. Improving the reliability of the plagiarism detection system. Lab Report for PAN at CLEF: 359-366.

Maurer, H. A., F. Kappe and B. Zaka, 2006. Plagiarism-A Survey. J. UCS 12(8): 1050-1084.

McCabe, D. L., 2005. Cheating among college and university students: A North American perspective. International Journal for Educational Integrity 1(1).

Meuschke, N. and B. Gipp, 2013. State-of-the-art in detecting academic plagiarism. International Journal for Educational Integrity 9(1).

Meuschke, N. and B. Gipp, 2013. State of the Art in Detecting Academic Plagiarism. International Journal for Educational Integrity 9(1): 50-71.

Park, C., 2003. In Other (People's) Words: Plagiarism by university students--literature and lessons. Assessment & Evaluation in Higher Education 28(5): 471-488.

Potthast, M., M. Hagen, T. Gollub, M. Tippmann, J. Kiesel, P. Rosso, E. Stamatatos and S. Benno, 2013. Overview of the 5th International Competition on Plagiarism Detection in. CLEF (Online Working Notes/Labs/Workshop).

Stein, B., S. M. zu Eissen and M. Potthast, 2007. Strategies for retrieving plagiarized documents in. Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, ACM.

Weber-Wulff, D., 2010. Test cases for plagiarism detection software in. Proceedings of the 4th International Plagiarism Conference.