IT新势力:微软、谷歌的大数据计划

日期: 2011-08-11 作者:Roger Jennings翻译:梁英宗 来源:TechTarget中国 英文

如今的CIO们正忙于寻找有关超大数据集或大数据的可行性方案。但对多数企业而言,大数据就意味着大投入。还好公共云提供商让大数据更贴近了现实。   TB、PB级的大数据,常常由Web server日志数据、产品销售数据,社区网络数据和消息传递数据构成。

在IBM的Essential CIO研究所调查的3000名CIO当中,有83%的人将业务分析列为首要投资项目。另据Gartner的调查显示,到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%。   在经济不景气的情况下,大数据存储和计算性资源(高级分析方法所需)的预算,对公司来说可不是件轻松的事。多数CIO会……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

如今的CIO们正忙于寻找有关超大数据集或大数据的可行性方案。但对多数企业而言,大数据就意味着大投入。还好公共云提供商让大数据更贴近了现实。

  TB、PB级的大数据,常常由Web server日志数据、产品销售数据,社区网络数据和消息传递数据构成。在IBM的Essential CIO研究所调查的3000名CIO当中,有83%的人将业务分析列为首要投资项目。另据Gartner的调查显示,到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%。

  在经济不景气的情况下,大数据存储和计算性资源(高级分析方法所需)的预算,对公司来说可不是件轻松的事。多数CIO会选择公共云提供商来交付按需,弹性基础设施平台与SaaS。当谈到公司搜索引擎、数据中心投资和云计算知识时,Steve Ballmer表示,“除了微软和谷歌,没人玩得了大数据。”

  微软的LINQ Pack、LINQ to HPC、Project“Daytona”以及即将问世的Excel DataScope都是专为研究人员和业务分析师打造,用以在Windows Azure上做大数据分析的。谷歌的Fusion Tables还没有被设计用来在云上处理大数据,但该应用程序的简单易用,为其赢得了人气。看来是时候在企业内部着手海量数据管理了,这样你才能胜过那些未做准备的竞争对手。”

  LINQ to HPC预示微软投资大数据

  微软带着 Windows Azure Marketplace DataMarket进军大数据整合市场了。但事实是,公司重点投资基于云计算的大数据分析始于收入产品软件和服务。举例来说,早在2001年6月,微软的高性能计算(HPC)小组就发布了针对Windows HPC Server 2008集群的HPC Pack的Beta 2版,和LINQ to HPC R2 SP2。

  经过多年在微软研究院的开发,Bing搜索分析使用了HPC Pack和LINQ to HPC,并分别把它们叫做Dryad和Dryad LINQ。LINQ to HPC被用来分析存储在文件集上的非结构大数据,而文件集就是所谓的分布式存储目录(Distributed Storage Catalog )。默认情况下,3个DSC复制文件被安装在另外运行HPC Server 2008和HPC Pack R2 SP2的机器上(位于多计算节点中)。LINQ to HPC应用或任务,来处理DSC文件集。据Chappell & Associates的David Chappel的观点,LINQ to HPC是“Windows HPC Server上的数据密集型计算 ”,并结合了本地硬件(如图一)。

  图1:在一个本地安装上,LINQ to HPC组件遍布客户工作站、集群头结点以及每个计算节点。

  LINQ to HPC的客户端包含了可以执行LINQ查询的.NET C#或VB工程,随后LINQ to HPC Provider会发送其中的LINQ查询到头结点的任务调度器(Job Scheduler)。LINQ to HPC采用有向无环图式的数据模型。图数据库本身是文档数据库,它把关系作为文档。接下来,任务调度器(Job Scheduler)创建图管理器(Graph Manager),用以操作图。

  LINQ to HPC架构的一大重要优势就在于,它让.NET的开发者可以更方便地编写跨多计算节点、并行执行的任务,原本这些是“不易并行”的负载。

  微软最近打包HPC业务到服务器及云计算小组,大力在Windows Azure上运行HPC。Service Pack 2 支持用户像Windows Azure虚拟机(VMs)那样运行计算节点。最常用的配置是被称为“爆发情景”的混合云方式——头节点在本地数据中心,大量计算节点按Windows Azure VMs 方式运行(根据工作负荷),文件集则保存在Windows Azure的驱动器上。

  “Daytona”与Excel DataScope能否简化开发?

  由微软研究院(MSR)成立,并推动边界计算成为Cloud Research Engagement Initiative一部分的极限计算组织(XCG),在2011年7月,以社区技术预览(CTP)的方式发布了“Daytona”平台。随后,小组又在同月内更新了该项目。

  作为Windows Azure的运行时MapReduce,Daytona是微软用来对抗Amazon Web Service的Elastic Map Reduce、Apache Foundation的Hadoop Map Reduce、MapR的Apache Hadoop 以及Cloudera Enterprise Hadoop的。“Daytona”最大的优势是很容易部署到Windows Azure上。CTP包括一个预构建.NET MapReduce库和托管源代码的基础部署包、C#代码、针对k-means聚类算法的样本数据、孤立点检测分析,以及完整的文档。

  “Daytona为开发人员编写机器学习和数据分析算法,提供了非常简单、易用的编程接口,”XCG Cloud Computing Futures(CCF)团队的架构师兼队长的Roger Barga介绍说。“‘开发者’不需要知道过多分布式计算,或是怎样分散计算的知识,也不需要很细节地掌握Windows Azure。”

  电话会议中,Barga表示会尽最大努力在8周内升级Daytona CTP。在2010年预览的最后阶段,内部并行了针对Windows Azure CTP的升级日程。下一次Daytona CTP的升级计划中包括了RESTful API和性能改进。今年秋季,你就可以期待一次MapReduce引擎的升级,它将为传统批处理增加流处理能力。Barge还表示,根据社区对项目的贡献,团队正考虑推出开源版的“Daytona”。

  2011年6月,微软研究院发布了Excel DataScope,这是它的最新大数据分析及可视化产品。
Excel DataScope支持用户上传数据,从存储在云上的数据中提取模式,识别隐藏关联,发现数据集间的相似度以及完成时间序列上的预测,这些都是通过使用我们所熟悉的电子表格用户界面的研究功能区实现的(如图2)。

  图2:Excel DataScope的研究功能区,支持用户在Windows Azure上访问和共享计算与存储。

  “Excel呈现的是一种封闭世界观,用户只能访问本地机器的资源。而研究人员是一类需要使用不同模型的程序员,他们希望在云计算上管理和共享数据。”Barga解释到。

  “Excel DataScope保持与Windows Azure的开放会话,实现上传和下载数据到工作区(存储在Azure块上)。对共享访问数据和算法来说,工作区是一个私有沙箱。用户可以排列任务、分离Excel以及断点续传,进度条可跟踪分析状态。”Silverlight PivotViewer提供了Excel DataScope的数据可视化特性。Barga期望第一版Excel DataScope CTP可以在今年秋天与大家见面。

  Google Base的没落与Google Fusion Table的崛起

  Google Base曾是首款以Web方式访问,基于公司的BigTable技术的非关系数据管理系统。2005年,Google推出Base的测试版时曾引起了广泛关注,但由于受限的模式以及贫乏的性能,多数早期使用者对其是心灰意冷。

  在尝试将Google Base作为通用云数据存储之后,我首次坦露自己对Google Base的沮丧。2010年9月,Google将Base作为Google Product Search的数据存储移入它的Merchant Center,并称于年低内结束Base——削弱Base API是为了推出新的Google Shopping API。

  Google Fusion Tables

  2009年,由Google Labs开发了Google Fusion Tables的免费测试版,它支持用户上传数据和下载*.csv格式的文件,每数据集最大为100MB,每用户最多250MB。用户可以向公众或指定用户共享文件。然而,存储限制太低以致于制约了大数据项目使用Fusion Tables。

  用户可以过滤与整合数据,还可通过Google Maps或其他由Google Visualization API所提供的方法来可视化数据。Fusion Tables还可以使数据集以及个别项目自动化;用户还可以根据主键值连接,或是融合表。

  根据2010年11月的一份Google Operating Systems公告,Fusion Tables 已经在九月从Google Labs“毕业”,并将被融入Google Docs应用。“Google Docs将在文档类型列表中包括Fusion Tables,此外还会有一个Fusion Tables的小图标。用户可以像在Google Docs一样从Google Spreadsheets和共享工作中导入表。”“毕业”也意味着Fusion Table逃脱了Larry Page今年7月所做的“集中火力重点突破”的决策,这项决策导致了Google Labs被关闭。

  Fusion Tables最有趣的要算是集成了Google Maps JavaScript API v3,用以可视化地理编码数据。“从技术型GIS的角度,深入研究一下Google Fusion Tables”,软件开发者Viswaug指出:“GIS人员应该都会对‘Map’和‘Intensity Map’的表数据感兴趣。它确实让映射数据的流程变简单了。Fusion Tables中的‘位置’字段类型,既支持街道地址字符串也支持KML字符串来表示几何尺寸。输入位置字段的街道地址会自动的地理编码,并在地图上可视化。”

  图三展示了,2006年12月起,发生在墨西哥毒品战争中的谋杀案的地理分布。数据出自Fusion Tables站点上107个公共数据集中的一个。

  图三:Google Fusion用户的可视化菜单中的10种可视化方法中的一种。

  另一个Fusion Table项目包含了2010年美国选举支持率的数据,用户可以通过映射一些报告来选择参议院、白宫和政府竞选。

相关推荐