不用HDFS能运行Hadoop分析吗?

日期: 2015-03-30 作者:George Crump翻译:张培颖 来源:TechTarget中国 英文

George Crump:简短的回答是你必须有Hadoop分布式文件系统来执行Hadoop分析。但是,通常问这个问题的时候,IT人员实际上想问的是如果存储资源必须直接连接,哪一个是传统的Hadoop设计。对于这个问题的答案是NO,而且还有一些很有力的理由来佐证我们不必遵从通常的设计。

什么是Hadoop分析?

Hadoop是一种用于业务分析处理的环境。允许大量的计算算来处理超大型非结构化数据集。这些数据可以来自于各种源,但是最常见的数据是通过作为物联网的一部分的传感器创造的数据。为了让其分析处理是有价值的,Hadoop必须快速处理这些数据集,而且要通过Hadoop分布式文件系统(HDFS)实现。HDFS本质上将计算转移到数据,而不是传输数据到计算。

大多数Hadoop环境由商用服务器集群组成,都有本地存储。数据加载到这些结点,在那里处理那个数据集。这称之为MapReduce功能。一旦每一个结点基于请求处理那个数据,结果就会从每一个结点发送,然后在一个主结点合并。主结点也存储与集群管理相关的所有元数据。

Hadoop存储替代

传统Hadoop存储架构的替代品利用了共享的存储环境,这个环境是计算结点连接的。厂商提供了这种解决方案,既可以用他们自己的HDFS兼容的插件,也可以利用亚马逊简单存储服务(S3)接口的Hadoop模式。

S3是一款本地的文件系统,用来读取和编写亚马逊云存储上的文件。很多对象存储系统支持这个接口,最终可以支持运行在本地虚拟云上的Hadoop基础架构,而不是在亚马逊云中。这个文件系统的优势在于Hadoop可以访问文件,这个文件可以通过其他工具或者联网的传感器编写。相反,其他的应用也可以使用Hadoop访问文件编写。

使用共享存储基础架构存储Hadoop数据有很多好处,包括更好更有效地保护数据,多应用访问存储以及更好地保护Hadoop主结点。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

张培颖
张培颖

云计算网站编辑

相关推荐