Nguyễn Hùng Dũng * , Nguyễn Hoàng Việt , Trương Quốc Định , Trương Xuân Việt , Lương Huy Nhật Huỳnh Gia Khương

* Tác giả liên hệ (hungdung@ctu.edu.vn)

Abstract

The objective of the article is to propose a suitable management model which could be used to exploit rich and diversified data in different formats (i.e. text and spreadsheet). Besides, we also propose specific solutions based on a common Big Data platform, including: (1) HDFS (Hadoop Distributed File System) of Hadoop, which could be used in file management, (2) Lucene, which could be used to establish reversed indexing for text and (3) Apache Solr, which could be used to support reversed indexing management mechanism, full text searching and advanced searching functions. This article also presents experimental results, aggregates statistical results and displays statistical chart of applying the model into the analysis of trends in scientific research at Can Tho University.
Keywords: Big Data, Distributed File System, Inverted Index, Full-text Search, Solr, Lucene

Tóm tắt

Mục tiêu của bài viết là đề xuất mô hình quản lý và khai thác hữu hiệu các dữ liệu phong phú, đa dạng đang tồn tại dưới dạng các văn bản, bảng tính của một tổ chức. Bên cạnh đó, chúng tôi cũng đề xuất giải pháp công nghệ cụ thể dựa trên các nền tảng Big Data phổ biến, bao gồm: (1) HDFS (Hadoop Distributed File System) của Hadoop dùng trong quản lý tập tin, (2) Lucene để lập chỉ mục nghịch đảo (Inverted Index) cho văn bản và (3) Apache Solr hỗ trợ cơ chế quản lý chỉ mục nghịch đảo, tìm kiếm toàn văn và một số chức năng tìm kiếm nâng cao. Bài viết cũng trình bày kết quả thực nghiệm, tổng hợp kết quả và trình bày biểu đồ thống kê của việc áp dụng mô hình trong phân tích xu hướng nghiên cứu khoa học tại Trường Đại học Cần Thơ.
Từ khóa: Big Data, Distributed File System, Inverted Index, Full-text Search, Solr, Lucene

Article Details

Tài liệu tham khảo

Banana for Solr, 2015. [Online]. Available from: https://github.com/lucidworks/banana.

Bernard Marr, 2015. Why only one of the 5 Vs of big data really matters. [Online]. Available from: http://www.ibmbigdatahub.com/blog/why-only-one-5-vs-big-data-really-matters.

Cao Mạnh Đạt, 2013. Bộ phân tích từ vựng tiếng Việt cho Lucene. [Online]. Địa chỉ: https://caomanhdat.wordpress.com/2013/06/26/bo-phan-tich-tu-vung-tieng-viet-cho-lucene/.

Doug Cutting, 2013. Apache Lucene: Then and Now By Doug Cutting. [Online]. Available from: http://www.meetup.com/fr-FR/Hadoop-DC/events/140608632.

Khung tích hợp Cloudera, 2015. [Online]. Địa chỉ: http://www.cloudera.com.

Khung tích hợp Hortonworks, 2014. [Online]. Địa chỉ: http://hortonworks.com.

Le-Hong, P., T M H. Nguyen, A. Roussanaly, and T V. Ho, 2008. A hybrid approach to word segmentation of Vietnamese texts. Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, Springer, LNCS 5196, pp. 240-249, 2008.

Lucene, 2015. [Online]. Available from: http://lucene.apache.org/solr/index.html.

O.Alhabashneh, R. Iqbal, N. Shah, S. Amin, A. James, 2011. Towards the Development of an Integrated Framework for Enhancing Enterprise Search Using Latent Semantic Indexing. In ICCS 2011, LNAI 6828, pp. 346–352, 2011, Springer-Verlag Berlin Heidelberg 2011. DOI: 10.1007/978-3-642-22688-5_29. ISBN: 978-3-642-22687-8.

Trương Quốc Định, Nguyễn Quang Dũng, 2012. Một giải pháp tóm tắt văn bản tiếng Việt tự động. Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông- Hà Nội, 03-04/12/2012.