跨国公司通常有很多应用程序,例如,笔者最近合作的一家公司就拥有600多个文档化IT应用程序,其中之一就是其ERP系统。如果要了解整个企业的业务绩效,你需要以某种方式汇总这些数据,以解决产品、客户、供应商分类不一致问题。
这项艰巨的任务需要处理棘手的数据质量问题,而这就会需要数据仓库。在企业重组、收购和其他业务变化中,保持数据仓库更新是一项重大挑战,但这正是企业所依赖的东西,以便为他们提供业务统一视图。
欢迎数据湖
对于商业许可数据库来说,大数据的数量太大,它们无法经济地处理如此多的数据。这些数据包括来自智能电表、传感器、Web日志、电话基站、社交媒体等的数据。一架现代飞机每次飞行可产生5 TB的数据,而自动驾驶汽车每天可产生40 TB的数据。传统数据库无法处理如此大的数量,并且在扩展时成本会迅速上升。
更便宜的存储选项是Hadoop,这是一种开源的分布式处理框架,它允许在商用硬件集群上存储和管理非常大量的数据。Hadoop已被添加到服务来处理企业现在生成的大数据,但重要的是要了解该数据是原始数据,数据没有像在数据仓库中那样被处理或汇总。
“数据湖”一词用于描述原始数据的存储。想象一下真正的湖水与一瓶依云之间的区别,后者经过清洗、品牌化和包装,易于饮用。
最初,数据湖全部托管在企业防火墙内部的专用硬件上。但是,维护不断增长的数据湖(以及在数据涌入时添加和管理服务器)需要很多资源。因此,我们开始看到供应商开始托管数据湖,正如供应商进入企业过去在内部处理的其他市场一样,这并不令人惊讶。
云端数据湖
在自己的企业数据中心内进行大数据湖管理(处理备份、安全性和硬件故障等)是一项艰巨的工作。这也是为什么托管云服务成为数据湖Hadoop的主要替代方案。
亚马逊、微软和谷歌在云端提供数据湖。但是,在将数据移交给云服务提供商之前,你需要考虑一些重要的数据湖管理问题。
从好的方面来说,管理是别人的问题,你可以根据需要扩大或缩小规模,而不必投资新的硬件。另一方面,你需要考虑是否信任提供商来处理数据的安全性(其中大部分数据可能非常敏感),以及是否信任其保持运营服务运行的能力。
虽然大多数提供商变得越来越可靠,但即便在2019年,我们也看到重大故障的发生,包括影响Google Cloud(6月2日)和微软(1月24日)的事故。不过,你的内部数据中心就不会遇到断电的问题吗?
在云端还是内部运行数据湖,取决于你是否相信第三方提供商可以安全可靠地维护你的数据。
在云计算早期,企业对于将数据湖存储在防火墙外部的云端感到非常紧张。慢慢地,经济利益让他们放下了这些担忧。
根据IDC的报告,现在越来越多的应用程序正在迁移到云中,包括数据湖,2019年的云计算比2018年增长了近24%,而根据451 Research在2017年进行的一项调查显示,90%的企业在使用某种类型的云服务。
有效利用数据
究竟是将数据湖托管在云端还是内部?大型公司面临的障碍是,如何真正利用以越来越快的速度涌入其数据湖的数据。
数据分析师面对如此大量数据,就像试图从消防水带喝水一样。你需要对数据湖中存储的数据进行分类,使用有意义的元数据标记数据集,以使其稍后可识别,并开始映射此数据与企业数据的关系。向原始数据添加有意义的元数据或标签尤其重要。如果不这样做,你的数据湖将变成数据沼泽。
企业通常会在其传统数据仓库旁边建立数据湖,并根据需要将数据从湖中抽出到仓库中。在决定是否为你的数据湖使用云服务前,你需要考虑该服务是否可很好补充你的数据仓库。
例如,如果你的数据湖获取社交媒体Feed,其中包含客户对你品牌的评论,那么如何将这些数据与客户数据库相关联?如果客户是你在公司忠诚度计划中的重要客户,你可能需要更多地关注他们的抱怨,但是你能够建立这种联系吗?
整理原始数据湖,并将其与主流公司数据相结合会带来很多机会,但这对于高压下的数据管理人员来说也是一个重大挑战。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
翻译
相关推荐
-
云计算的未来:热门趋势和预测
在过去的几十年里,云计算已经从配置虚拟机的更便宜的替代品演变为更细微和复杂的基础设施。尽管就原始基础设施成本而 […]
-
5个值得考虑的开源云监控工具
如果你的IT团队需要低成本、无锁定的云监控工具,开源可能是不错的选择。 云计算的受欢迎程度持续飙升。然而,由于 […]
-
云退出策略的8个关键步骤
吸引企业迁移到公共云有很多好处,例如降低运营复杂性和降低成本的潜力。但云服务不一定是每个工作负载的最佳场所。有 […]
-
最新VMware产品发布让博通面临挑战
分析师表示,很多企业仍然不确定是否应该继续使用Broadcom的VMware,该供应商最近对其混合云平台做出重 […]