大数据多层蛋糕:YARN/MapReduce2.0/Hadoop集群

日期: 2014-06-19 作者:Jason Tee翻译:谨宣 来源:TechTarget中国 英文

随着新技术解决方案的发展,Hadoop已经成为了大数据世界的标志。它出现在恰当的时间来帮助IT处理非关系型数据库–NoSQL,从此快速发展并流行至今。当然,随着被广泛采用,以及持续改进的需求,Hadoop已经逐渐成熟起来。幸运的是,该平台在上升之际不断地扩展功能。Hortonworks公司的创始人兼架构师Arun Murthy指出,Hadoop 2.0提供了多种引人注目的新功能以及比以往更好的性能。在这一成功的核心就是–YARN,这个华丽的平台世界让你可以按照自己的喜好绑定尽可能多的数据处理方法。

深入解读YARN

那么究竟什么是YARN?如果你把Hadoop想象成一个多层蛋糕,Hadoop分布式文件系统(HDFS)是基础层,提供可靠,冗余的存储。 MapReduce是曾经的下一层。如今,YARN从MapReduce分离出来,成为一个HDFS最上面的单独层。集群资源管理是在YARN里面处理,而现在的MapReduce处在YARN的最顶部,只做数据处理工作。事实上,MapReduce甚至已经不再是一个顶层了。它只是插在蛋糕顶部的蜡烛。那里有足够的空间可以容纳更多的蜡烛(这里的蜡烛是指选择的数据处理模型)被插入到YARN。Arun指出,“使用YARN,我们所做的是独立的系统,并把它做成一个通用的分布式操作系统。现在你有一个API处理不同的应用程序,而其中一个正好是MapReduce。”

Yarn会过度集中或是进一步分化平台吗?

那些关于Hadoop可能会变得更加脆弱或更加分散的担心,显然是站不住脚的。对于Hadoop用户来说,幸运的是,这种新的模式并非是一块整体。它实际上比以前更加模块化,现有用户可以和原始的Hadoop一样部署同样的用例,而不用扰乱现有的流程。Hortonworks网站这样吹捧这个版本MapReduce新的灵活性:“随着MapReduce发展成为一个用户空间库,它可以独立于底层的资源管理器层并以更加灵活的方式存在。”

Hortonworks公司的企业战略副总裁Shaun Connolly指出, Yarn同时还带来了这样的能力,它可以在指挥中心更有效地管理各种数据处理应用程序。“它使不同风格的应用程序自然并且深入的嵌入到该平台,而不仅仅是在上面运行,并存储数据到各个GSS。”关键一点是,如果你能使不同应用程序在本机运行,那就有像内存利用率、图像处理器(GPU)需求等都可以得到集中处理,这样应用程序就能够更好的相互利用。这就是真正的关键点。它将Hadoop从一个利用HDFS的MapReduce批处理系统转换成为一个多应用运营平台。”

目标是阻止分离工作负载。使用YARN集中有助于避免或解决资源争用问题,比如让一个应用控制并吞噬资源。使用YARN,用户不只需复制或者建立超出他们需要的集群,只要利用他们需要的应用程序来访问数据就可以。相反,他们可以在同一地方把集群扩展到10000 +。这就可以得使服务质量变得更可预测。

大数据的好处

由于当今大数据的口号是分析,对下一代Hadoop来说,这是一个重要的卖点并不奇怪。批处理已经不能再满足企业的数据处理需求。企业不只是需要数据的快照,他们也需要视频。 Hadoop平台的推广使得它能够运行其他类型的编程模型,如流媒体和图形处理,甚至允许接近实时分析。

它也同样与当今市场保持一致。YARN的设计充分考虑到未来发展的路线。启用新的组件加入MapReduce框架,甚至可以刺激开源社区的创新,作为另一波在YARN上建立的应用,从而更好的利用大数据。Hortonworks的员工指出,迁移到下一代Hadoop可以说绝对没有任何损失。正如Arun所说,采用者不用放弃任何东西。他们只是获得新的能力。 “你仍然拥有MapReduce,但现在你会从Hadoop投资中得到更多回报。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐