你是否应该将数据湖托管在云端?

日期: 2020-02-02 作者:Andy Hayler翻译:邹铮 来源:TechTarget中国 英文

跨国公司通常有很多应用程序,例如,笔者最近合作的一家公司就拥有600多个文档化IT应用程序,其中之一就是其ERP系统。如果要了解整个企业的业务绩效,你需要以某种方式汇总这些数据,以解决产品、客户、供应商分类不一致问题。

这项艰巨的任务需要处理棘手的数据质量问题,而这就会需要数据仓库。在企业重组、收购和其他业务变化中,保持数据仓库更新是一项重大挑战,但这正是企业所依赖的东西,以便为他们提供业务统一视图。

欢迎数据湖

对于商业许可数据库来说,大数据的数量太大,它们无法经济地处理如此多的数据。这些数据包括来自智能电表、传感器、Web日志、电话基站、社交媒体等的数据。一架现代飞机每次飞行可产生5 TB的数据,而自动驾驶汽车每天可产生40 TB的数据。传统数据库无法处理如此大的数量,并且在扩展时成本会迅速上升。

更便宜的存储选项是Hadoop,这是一种开源的分布式处理框架,它允许在商用硬件集群上存储和管理非常大量的数据。Hadoop已被添加到服务来处理企业现在生成的大数据,但重要的是要了解该数据是原始数据,数据没有像在数据仓库中那样被处理或汇总。

“数据湖”一词用于描述原始数据的存储。想象一下真正的湖水与一瓶依云之间的区别,后者经过清洗、品牌化和包装,易于饮用。

最初,数据湖全部托管在企业防火墙内部的专用硬件上。但是,维护不断增长的数据湖(以及在数据涌入时添加和管理服务器)需要很多资源。因此,我们开始看到供应商开始托管数据湖,正如供应商进入企业过去在内部处理的其他市场一样,这并不令人惊讶。

云端数据湖

在自己的企业数据中心内进行大数据湖管理(处理备份、安全性和硬件故障等)是一项艰巨的工作。这也是为什么托管云服务成为数据湖Hadoop的主要替代方案。

亚马逊、微软和谷歌在云端提供数据湖。但是,在将数据移交给云服务提供商之前,你需要考虑一些重要的数据湖管理问题。

从好的方面来说,管理是别人的问题,你可以根据需要扩大或缩小规模,而不必投资新的硬件。另一方面,你需要考虑是否信任提供商来处理数据的安全性(其中大部分数据可能非常敏感),以及是否信任其保持运营服务运行的能力。

虽然大多数提供商变得越来越可靠,但即便在2019年,我们也看到重大故障的发生,包括影响Google Cloud(6月2日)和微软(1月24日)的事故。不过,你的内部数据中心就不会遇到断电的问题吗?

在云端还是内部运行数据湖,取决于你是否相信第三方提供商可以安全可靠地维护你的数据。

在云计算早期,企业对于将数据湖存储在防火墙外部的云端感到非常紧张。慢慢地,经济利益让他们放下了这些担忧。

根据IDC的报告,现在越来越多的应用程序正在迁移到云中,包括数据湖,2019年的云计算比2018年增长了近24%,而根据451 Research在2017年进行的一项调查显示,90%的企业在使用某种类型的云服务。

有效利用数据

究竟是将数据湖托管在云端还是内部?大型公司面临的障碍是,如何真正利用以越来越快的速度涌入其数据湖的数据。

数据分析师面对如此大量数据,就像试图从消防水带喝水一样。你需要对数据湖中存储的数据进行分类,使用有意义的元数据标记数据集,以使其稍后可识别,并开始映射此数据与企业数据的关系。向原始数据添加有意义的元数据或标签尤其重要。如果不这样做,你的数据湖将变成数据沼泽。

企业通常会在其传统数据仓库旁边建立数据湖,并根据需要将数据从湖中抽出到仓库中。在决定是否为你的数据湖使用云服务前,你需要考虑该服务是否可很好补充你的数据仓库。

例如,如果你的数据湖获取社交媒体Feed,其中包含客户对你品牌的评论,那么如何将这些数据与客户数据库相关联?如果客户是你在公司忠诚度计划中的重要客户,你可能需要更多地关注他们的抱怨,但是你能够建立这种联系吗?

整理原始数据湖,并将其与主流公司数据相结合会带来很多机会,但这对于高压下的数据管理人员来说也是一个重大挑战。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐