George Crump:简短的回答是你必须有Hadoop分布式文件系统来执行Hadoop分析。但是,通常问这个问题的时候,IT人员实际上想问的是如果存储资源必须直接连接,哪一个是传统的Hadoop设计。对于这个问题的答案是NO,而且还有一些很有力的理由来佐证我们不必遵从通常的设计。
什么是Hadoop分析?
Hadoop是一种用于业务分析处理的环境。允许大量的计算算来处理超大型非结构化数据集。这些数据可以来自于各种源,但是最常见的数据是通过作为物联网的一部分的传感器创造的数据。为了让其分析处理是有价值的,Hadoop必须快速处理这些数据集,而且要通过Hadoop分布式文件系统(HDFS)实现。HDFS本质上将计算转移到数据,而不是传输数据到计算。
大多数Hadoop环境由商用服务器集群组成,都有本地存储。数据加载到这些结点,在那里处理那个数据集。这称之为MapReduce功能。一旦每一个结点基于请求处理那个数据,结果就会从每一个结点发送,然后在一个主结点合并。主结点也存储与集群管理相关的所有元数据。
Hadoop存储替代
传统Hadoop存储架构的替代品利用了共享的存储环境,这个环境是计算结点连接的。厂商提供了这种解决方案,既可以用他们自己的HDFS兼容的插件,也可以利用亚马逊简单存储服务(S3)接口的Hadoop模式。
S3是一款本地的文件系统,用来读取和编写亚马逊云存储上的文件。很多对象存储系统支持这个接口,最终可以支持运行在本地虚拟云上的Hadoop基础架构,而不是在亚马逊云中。这个文件系统的优势在于Hadoop可以访问文件,这个文件可以通过其他工具或者联网的传感器编写。相反,其他的应用也可以使用Hadoop访问文件编写。
使用共享存储基础架构存储Hadoop数据有很多好处,包括更好更有效地保护数据,多应用访问存储以及更好地保护Hadoop主结点。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
存储方案(DAS、NAS、SAN、OSS)与分布式文件系统的关系?
-
哪些分布式文件系统可以由Python编写的呢?
-
如何克服云端数据仓库数据迁移问题?
云计算和数据仓库是合理的一对。云存储可以按需扩展,云可以将大量服务器贡献于某一具体任务。数据仓库通用功能是本地数据分析工具,受到计算和存储资源的限制……