Hadoop大数据分析:Azure HDInsight服务预览

日期: 2013-04-25 作者:Roger Jennings翻译:张培颖 来源:TechTarget中国 英文

微软最新Windows Azure数据中心扁平网络存储(Flat Network Storage)架构,展示了Hadoop众所周知的“将计算转移到数据上”的特性,对大数据分析使用高可用性和可持续的blob存储集群成为现实。   微软全球副总裁Scott Guthrie三月份宣布了该公司HDInsight服务预览版的主要升级,即Hortonworks Hadoop Data Platform v1.1.0。此次更新的预览版中的DevOps特性,让开发者可以更轻松的用Windows Azure服务订阅创建高性能HDInsight计算集群,通过Windows Azure Management Por……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

微软最新Windows Azure数据中心扁平网络存储(Flat Network Storage)架构,展示了Hadoop众所周知的“将计算转移到数据上”的特性,对大数据分析使用高可用性和可持续的blob存储集群成为现实。

  微软全球副总裁Scott Guthrie三月份宣布了该公司HDInsight服务预览版的主要升级,即Hortonworks Hadoop Data Platform v1.1.0。此次更新的预览版中的DevOps特性,让开发者可以更轻松的用Windows Azure服务订阅创建高性能HDInsight计算集群,通过Windows Azure Management Portal实现(图一)。

  SQL Server群组的新版本由以下这些开源Apache Hadoop组件以及可再分布的微软Java数据库连接(JDBC)驱动组成:

  • Apache Hadoop, Version 1.0.3
  • Apache Hive, Version 0.9.0
  • Apache Pig, Version 0.9.3
  • Apache Sqoop, Version 1.4.3
  • Apache Oozie, Version 3.2.0
  • Apache H.Catalog, Version 0.4.1
  • Apache Templeton, Version 0.1.4
  • SQL Server JDBC Driver, Version 3.0

图一.开发者或者DevOps专家用Windows Azure Management Portal对HDInsight数据服务集群规定计算结点。

图一.开发者或者DevOps专家用Windows Azure Management Portal对HDInsight数据服务集群规定计算结点。

  一个集群包含一个每小时成本0.48美元的超大头结点,以及一个或者一个以上的大型计算结点,每小时成本0.24美元。因此,四个结点的小范围集群费用为每小时1.44美元,或者每月1000美元。(微软基于其每小时2.88美元的收费价格列表提出,但是对于实际的时间打五折;点击获取更多HDInsight价格信息。)Windows Azure上的Hadoop第一次预览提供了预构建、可再生的三个结点集群,寿命为24小时;随后的升级增加到五天的寿命,但是关闭了可再生功能。数据存储和出口带宽收费在最新的预览版中没有折扣,但是对亚马逊Web服务的简单对象存储服务(S3)具有竞争性。打折的Azure服务不提供服务水平协议。

将HDFS存储从本地文件系统转移到Windows Azure blob

  Hadoop最基本的DevOps格言之一就是“将计算转移到数据上”,通常需要托管Hadoop分布式文件系统(HDFS)数据存储文件,并在运营系统的文件系统中计算操作。Windows Azure开发者习惯了Azure blob存储,这种存储通过三次复制所有的存储对象,提供了高可用性。加强了可持续性,灾难恢复通过地理复制激活,地理位置设置好后,在相同的区域中的Windows Azure数据中心中一式三份复制。比如,在西欧都柏林创建了Azure blob存储,就会自动复制到北欧的阿姆斯特丹。HDFS不提供内建可用性和可持续性特性。

  HDFS在本地文件系统上运行,对比HDInsight 服务第一代网络架构的MapReduce任务和相同文件系统中的MapReduce计算可执行性,交付了比Azure blob上更好的性能。Windows Azure存储由于早期分离虚拟机(VM)的决定而进展缓慢,主要是改善多租户隔离的存储计算。

  Windows Azure存储团队的Brad Calder在2012年11月的一篇博客中,对扁平网络存储和第二代存储硬件进行了描述,详见《Windows Azure的扁平网络存储和2012年可扩展性目标》。他对比了第一代和第二代存储硬件:

硬件代数

存储结点网络速度

计算和存储之间的网络

负载均衡器

日志存储设备

第一代

1 Gbps

分层网络

硬件

硬盘

第二代

10 Gbps

扁平网络

软件

SSD

  根据Calder的博客内容,第二代Quantum 10或者Q10,存储提供了充分的非阻塞,10Gbps成熟的网状网络提供了聚合基架,为每一个Windows Azure数据中心提供超过50Tbps的带宽。他宣称实景实现了存储账户可扩展性目标,下面就是截止到2012年底实现的目标:

  • 容量多达200TB
  • 事务比率达到20,000实体/消息/blobs/秒
  • 地理冗余存储账户带宽
   o 入口: 5 Gbps
   o 出口: 10 Gbps
  • 本地冗余存储账户带宽
   o 入口: 10 Gbps
   o 出口: 15 Gbps

  存储账户有异地备援,默认提供地理冗余存储。终端用户可以关闭异地备援,使用本地冗余存储,从而减少地理冗余相关的存储成本,实现更高的入口和出口目标。

  Denny Lee是SQL Server团队商务智能团队的成员,Brad Sarsfield是Windows Azure团队的主要开发者,共同探讨了Azure上HDInsight的blob存储性能。下面是要点总结:

  • Azure blob存储在map任务中提供了与HDFS几近一致的读(性能和任务拆分)访问特性。
  • Azure blob提供更快的Hadoop HDFS写访问,在往磁盘写数据时,任务完成的更快,减少任务。

  Lee也总结了Nasuni的《2013云存储产业现状报告》, 对比了Azure blob存储和亚马逊简单对象存储服务(S3)的性能:

  • 速度: Azure比位列第二的亚马逊S3的写速度快56%,读取文件的速度比排在第二的惠普云对象存储的读速度快39%。
  • 有效性: Azure的平均响应时间比亚马逊S3快25%。
  • 可扩展性:亚马逊S3各项平均扩展范围测试为0.6%,微软Windows Azure 范围1.9%,二者的可扩展范围可接受度都非常高。惠普和Rackspace,都是基于OpenStack 的云,显示的值为23.5%和26.1%。随着对象总数的增加,性能越来越不可预知。

  我的博文《在Windows Azure CTP上使用来自Windows Azure Blob和Apache Hadoop的数据》,揭示了如何输入*.csv文件到HDInsight所调用的Azure存储库(ASV)。

HDInsight服务控制面板和样例库

图二.HDInsight控制台的活动瓷砖用户界面提供了对于该服务的DevOps 特性的访问。Monitor Cluster和 Documentation瓷砖是新添加的。

图二.HDInsight控制台的活动瓷砖用户界面提供了对于该服务的DevOps 特性的访问。Monitor Cluster和 Documentation瓷砖是新添加的。

  Windows Azure HDInsight服务的控制面板简化了Hadoop DevOps,提供了可以轻松访问的交互控制台,包括执行JavaScript代码、Hive查询、卡其远程桌面连接到计算VM、显示MapReduce 工作记录以及访问示例分析任务和文档。(图二)

  交互控制台的Hive窗口允许开发者基于Azure Blob数据(图三)定义结构化Hive表格。数据专家用类SQL语言——HiveQL查询Hive表。开放数据库连接(ODBC)Hive驱动可以让商务智能分析师用微软Excel可视化HiveQL结果。更多细节,参考《Excel中设置ODBC数据源》《Excel中执行HiveQL查询》。

图三.交互控制台的Hive窗口允许开发者基于Azure Blob数据定义结构化Hive表格。

图三.交互控制台的Hive窗口允许开发者基于Azure Blob数据定义结构化Hive表格。

  最新的Azure HDInsight服务预览版在微软数据中心,充分利用扁平网络的第二代硬件。ASV用户得到了HDFS集群的Windows Azure blob存储有效性和可持续性,而且性能不受到影响。开发者必须要警惕的是,删除不需要的集群,避免大量未使用的计算账单出现。

  关于作者

  Roger Jennings是一位面向.NET开发者兼作者, Windows Azure MVP, OakLeaf Systems的首席咨询师,也是OakLeaf Systems博客的管理者。他同时还是30多本书的作者,范围涉及Windows Azure平台、微软操作系统(Windows NT和2000 Server) 、数据库(SQL Azure、SQL Server和Access)、.NET 数据访问、Web服务和InfoPath 2003。他的图书英文版本印刷数量超过125万,还被翻译成20多种语言出版。