一、hadoop背景
随着Internet数据的爆炸性增长,应用类型的巨大丰富,企业和个人用户信息使用模式的变化已经远远超过了原有系统平台所提供的局限。越来越多的应用平台,不论对企业级还是个人级用户都不堪重负,在这种巨大潮流和趋势力的推动下,云计算被推上了计算机科学和应用的舞台,Google、亚马逊、雅虎等高科技企业以及MIT、斯坦福等教育科研机构也都加入了云计算计划。在这其中,他们都无一例外的将Hadoop作为云计算中的重要技术之一。
二、hadoop简介
Hadoop原来是ApacheLucene下的一个子项目,它最初是从Nutch项目中分离出来的专门负责分布式存储以及分布式运算的项目。用于海量数据的并行处理,简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop的核心组件主要包含:HDFS 和 MapReduce。 HDFS是分布式文件系统,用于分布式存储海量数据。 MapReduce是分布式数据处理模型,本质是并行处理。
Hadoop的出现代表着互联网软件发展的两个方向:
1. 海量数据处理的广泛应用。
它的设计思想来源于Google的Google File System和MapReduce这两篇学术文章。它最早的应用时为搜索引擎建立索引。单个搜索引擎索引的索引的数据量可达100TB至1PB。目前,海量数据处理技术已经被广泛的应用于用户的行为分析、广告效果分析、产品设计分析、商业智能分析等各个环节,为Internet公司的发展方向和决策制定提供最重要的信息。
2. 开源软件的蓬勃发展。
Hadoop之所以能在短短3年时间内就迅速崛起,获得如此广泛的应用,与其开源性质是息息相关的。由于开源技术的开放性,任何人都能很轻松的参与到Hadoop的开发中。互联网时代,知识更新的速度越来越快,软件和互联网从业人员的学习成本是非常大的,而开源的通用技术能在将来更长的时间内发挥作用。在国外,Hadoop已经成为海量数据处理的事实标准。