Trần Cao Đệ *

* Tác giả liên hệ (tcde@ctu.edu.vn)

Abstract

Today, we are living in the information age in which the information is explosive growth in exponent rate. Some leading company in information technology as Google, Yahoo, Amazon, Microsoft, Facebook, Twitter, etc. have  challenged with huge amount of data. This growth has demanded new strategies for processing and analyzing data. Cloud computing has been developed and Hadoop-MapReduce has become a powerful computation model addressing these problems. This model provides a programming framework for text processing applications that have ability to process quickly a large amount of data due to the parallel in a large computer cluster. This article provides an overview of large data processing problem on cloud computing platforms, such as architecture and components of Hadoop, HDFS (Hadoop Distributed File System), MapReduce model and its various applications.
Keywords: Cloud computing, big data, map - reduce, Hadoop

Tóm tắt

Ngày nay, chúng ta đang sống trong thời đại thông tin, với sự tăng trưởng bùng nổ thông tin theo cấp số nhân. Những công ty hàng đầu về công nghệ thông tin như Google, Yahoo, Amazon, Microsoft, Facebook, Twitter? đối mặt với một khối lượng dữ liệu khổng lồ. Sự tăng trưởng này đòi hỏi các chiến lược mới để xử lý và phân tích dữ liệu. Điện toán đám mây được phát triển và Hadoop-MapReduce đang là một mô hình tính toán mạnh mẽ để giải quyết cho những vấn đề này. Mô hình này đưa ra một khung lập trình cho các ứng dụng xử lí văn bản có khả năng xử lí nhanh chóng một lượng lớn dữ liệu nhờ vào sự song song trong một cụm lớn máy tính. Bài viết này cung cấp một cái nhìn tổng quan về vấn đề xử lí dữ liệu lớn trên nền tảng tính toán đám mây, như là, kiến ??trúc và thành phần của Hadoop, HDFS (Hadoop distributed File System), Mô hình MapReduce và các ứng dụng khác nhau của nó.
Từ khóa: Điện toán đám mây, dữ liệu lớn, Ánh xạ - rút gọn, Hadoop

Article Details

Tài liệu tham khảo

http://cto.vmware.com/project-serengeti-theres-a-virtual-elephant-in-my-datacenter/

Hadoop Tutorial, http://developer.yahoo.com/hadoop/tutorial/module4.html

http://www.cubrid.org/blog/dev-platform/platforms-for-big-data/

Thomas A. de Ruiter, A Workload Model for MapReduce, Master Thesis in Computer Science, Parallel and Distributed Systems Group Faculty of Electrical Engineering, Mathematics, and Computer Science, Delft University of Technology, 2nd June 2012.