云数据仓库让企业的梦想足够大,助力成功实现网络规模,但是他们的野心超越了现实,因为他们正挣扎于管理不同的环境。
数量不多(但数量在不断增长)的IT团队对于通过公有云中的数据存储库来改善业务有着很大的计划。
有前瞻性的IT厂商——以及推动廉价存储的供应商——看到了下一波商业智能浪潮中的巨大潜力,它将使用一系列基于云的服务来利用不断扩大的结构化和非结构化的数据缓存。尽管如此,这种模式的最大收益仍然在很大程度上是假设性的,因为大多数企业仍然处于探索阶段——无论是在架构上还是在文化上。
对于想要走这条路线的IT厂商来说,有一系列托管产品可以使用,包括Amazon Redshift、Google Cloud Platform的BigQuery和Microsoft Azure SQL Data Warehouse。 这些数据仓库通过与相关服务的更多抽象和集成来进一步简化数据挖掘——在某些情况下,无需调出实例。最终的目标是,各种规模的公司可以效仿那些注重自动化和从数据收集中发掘更多信息的网络规模企业的成功。
位于新墨西哥州洛斯阿拉莫斯市的卫星图像公司Descartes Labs在大规模转移到Google云平台之前,在本地和云上使用了大量的数据工具。该公司存储了大量原始数据,因为它并不总是知道客户会问什么问题。现在,它在很大程度上依靠Google BigQuery,Bigtable和对象存储来满足这些需求。
Descartes Labs的联合创始人Tim Kelton表示,这一转变是以开发人员为中心的方法的一部分,在这种方法中,员工们会选择最好的工具来解决他们想要解决的问题。
“最大的变化,也许是微服务,可以在两分钟内有很多不同的团队,开始做一些事情,然后问‘这是否适用于我们的工作正在努力实现的情景呢?‘,而不仅仅是说’采用的解决方案是Oracle SQL,一切都要朝着这个方向努力’,”Kelton说。
企业已经开始整合数据湖,或大量的原始数据库,以及更传统的数据仓库。与此同时,云已经成为一种托管数据的可行的地方,也是可以在没有大量资本投资的情况下,对多结构化数据进行高级分析的空间。
Gartner研究总监Adam Ronthal表示:“这反映出人们更强烈地希望能够适应各种类型的数据,而这些数据是我们以前无法真正了解的,或者没有技术或能力来利用的。”
云数据仓库服务对提供者和客户来说都是一个福音。所谓的超大规模平台——Amazon Web Services(AWS)、Microsoft Azure和Google Cloud Platform——提供了相对便宜的存储空间,以利用数据库和其他关键系统带来的工作负载。从那里,他们的定位是出售一系列更高层次的服务,这些服务被视为云计算的未来,这些服务旨在相信这些平台只不过是商品化的虚拟主机的概念。
AOL用Amazon EMR取代了Cloudera Hadoop环境,与现有设备相比,这样做可以节省大量资金;它现在将有效载荷存储在Amazon Simple Storage Service中,并根据需要使用EC2 Spot Instances来启动和拆除节点。下一步将是与其他AWS工具集成,例如用于基于触发器功能的Lambda和用于流数据的Kinesis Firehose。有了这个,AOL希望实现更高的效率和库存控制。
AOL的首席信息官James LaPlaine表示:“由于建立了更高层次的服务,我们看到了另一场可以参与的变革。”
企业通往云数据仓库的道路并非坦途
然而,那些高级服务可能会成为相当棘手的问题。出口成本过高,客户应该尽可能多地使用云数据,以最大限度地利用这些专有服务。因此,尽管云数据仓库对于那些可以在其选择的平台上重新开始的初创公司来说是非常有用的,但它可能会在转型期间给企业带来无数挑战。
内部结构化数据通常必须被清理或重写。出于这个原因,AOL和处于同样情况下的许多其他公司一样,选择保留了大部分历史数据。这些公司还必须扩大规模,以处理传统上驻留在本地的大量旧数据集。这些情况下,IT专业人员不仅要考虑计算和存储的成本,还要考虑网络的成本,因为扩展对存储的访问可能会非常昂贵。
其他企业,如New York Times,在不同的公有云中都有工作负载。
《泰晤士报》的数据工程执行总监Matt Digan表示:“如果所有的东西都在同一个地方,那么处理起来就简单多了,所以我们不必拥有Redshift集群,也不需要在BigQuery上有数据。”“加入这两个数据集并不容易。”
企业IT商店也需要不同的技能,必须为文化变革做好准备。除了那些在全球范围内工作的顶尖公司之外,对于习惯于传统基础设施的人来说,这目前还不太现实。Gartner分析师Ted Chamberlin说。
Chamberlin说:“对于一般企业来说,渴望实现这一目标是很好的,但大多数企业将要有两到三四年的时间来改变他们的企业,并减少他们不想要的东西,从而转向无状态服务。”
云未来与数据仓库息息相关
尽管面临这些挑战,那些已经开始将数据仓库迁移到公有云的企业看到了未来巨大的回报。
过去,《纽约时报》建立了自己的Hadoop集群,并使用了许多供应商的数据仓库,包括Informatica,Oracle和AWS。这种方法的一部分问题是数据过于孤立或过于技术性。《泰晤士报》正在迁移到Google Cloud Platform,并最终希望它能够作为该数据的单一容器。这也使得员工使用分析工具变得更加简单。
Digan说:“我们的目标是向用户提供数据,无论是数据分析师还是数据科学家,还是需要尽可能快速准确地了解某些内容的人员。”
《泰晤士报》计划将整个企业投向系统,并将所有内容放入BigQuery,以获得其读者的统一视图。接下来,Digan表示,他设想使用数据服务、机器学习模型和API来构建产品——包括内部和外部的,这将使公司能够更深入地了解其读者和销售情况,进而为读者提供更个性化的体验。
这是最让Digan兴奋的,但它不是一夜之间的学习体验,正如《泰晤士报》决定如何正确使用其数据一样。
“这正是我们要去学习的东西,”Digan说,“现在的探索要容易得多,所以当分析人员查询时,他们可以自己查询这些问题,而不需要帮助,但是我们还不太了解我们将要进入的所有问题。”
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
Google Cloud Platform新动向:与SAP开展业务
随着大量新客户与SAP HANA的整合,Google重申其公有云平台战略,准备在其上支持企业工作负载。Google正在加强它的适合企业的公有云案例。
-
AWS VS. Azure VS. Google:离线数据迁移大比拼
将存储磁盘发送到云提供商那里,似乎是一个过时的数据迁移方法,但它却是一个常见的选择。对此,AWS、Azure和Google是如何管理这个过程的。
-
逐条讲解:谷歌云存储服务
企业选择采用云模型有很多理由,但是,存储仍是一个关键的驱动力。主要的云提供商,如AWS、Azure和谷歌,他们都提供了不同的存储类型和工具,来组织和管理存储的数据。
-
2017谷歌火力全开:瞄准机器学习与数据分析
2016年,Google将赌注的筹码放在了机器学习和数据分析上,以此来区分它的云平台,从而在企业客户中产生重大影响力。