收集“大数据” 考虑最佳审查级别

日期: 2011-10-12 作者:Mike Ogrinz翻译:张培颖 来源:TechTarget中国 英文

可否就什么可以称之为“大数据”提供一些背景吗?   “大数据”是最新的流行词,俘虏了很多IT工作者的兴趣。随着越来越多的系统和传感器添加到我们的网络中,可将其想象成数进入数据中心的万亿字节(或者甚至是千万亿字节)的唯一信息流。   这并不是一个摆脱了无形的思想领域的清晰概念,在现实世界中也难以证明,但是大数据却正在设法证明。纽约市林肯中心最近用了40个七英尺高的媒体板以及一个123英尺宽LED墙来装饰。

但是这并不是典型的独一无二的艺术装置:这只是IBM Think展览(IBM百年庆典:THINK 数字交互展)的一部分。大数据也就在这个大显示器背后。   123英尺的LED墙实际上是来自周边展览……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

可否就什么可以称之为“大数据”提供一些背景吗?

  “大数据”是最新的流行词,俘虏了很多IT工作者的兴趣。随着越来越多的系统和传感器添加到我们的网络中,可将其想象成数进入数据中心的万亿字节(或者甚至是千万亿字节)的唯一信息流。

  这并不是一个摆脱了无形的思想领域的清晰概念,在现实世界中也难以证明,但是大数据却正在设法证明。纽约市林肯中心最近用了40个七英尺高的媒体板以及一个123英尺宽LED墙来装饰。但是这并不是典型的独一无二的艺术装置:这只是IBM Think展览(IBM百年庆典:THINK 数字交互展)的一部分。大数据也就在这个大显示器背后。

  123英尺的LED墙实际上是来自周边展览系统的实时数据图像可视化。这些系统标识了来自流量的所有内容,从百老汇到太阳能,再到空气质量报告。

  此次展览打算通过一个共通的模式来将发展贯穿到人类历史中:看(捕获数据)、映射(组织数据)、理解(找出管理数据的关系和规则)、确定(接收数据所告诉我们的内容)以及执行(使用这个数据趋向具体的目标)。

  遵循这种方式并不一直都很轻松,尤其是当你要处理信息相当巨大。大数据有两个主要范畴,第一个挑战就是识别出哪一个范畴才是你要处理的。

  结构化大数据,顾名思义,遵循标准模式。典型的例子包括股票滴答响的数据、用户活动(想象一下由谷歌或者Facebook维护的日志用例)或者是此次IBM展览上的自动流量数据收集。这里所面临的两个挑战是存储这些信息,并且为报告和数据挖掘目的操纵这些数据。

  非结构化大数据也和结构化数据面临着一样的挑战,但是问题更复杂,没有一个容易的方式来将这些信息归类到具体格式上。例如,通过一些估计,全球可能有差不多十亿博客。政治动荡的秘密是什么?消费者情感或者是悬而未决的健康危机都有可能包含其中。在你能够考虑挖掘这些资源之前,你必须真正地收获这些数据并将其存储在某个你可以操控的地方。首先,你可能希望将其转换成所有语言。这个事情就够难了。像情绪分析或者是观点挖掘这样的技术可能会协助你抽取出一些主观信息,但是很难知道要保留哪些信息,哪些信息没用。

  现在将相关性带到总揽中来,事情可能就会变得更复杂了。至少这个例子中的一些博客,我们能通过GPS数据找到这篇博客是在哪里写的。这意味着我们可以找到相关的地理信息。可能一个作者就在这场运动的中心,寻求躲避一场飓风,或者他们在千里之外在说这些事情。复杂性一直在增长,这也导致很难想象怎么完成IBM所说的映射阶段(Mapping stage),更别说进阶到理解阶段了。

  这就是大数据的实际挑战:杂乱无章中找到意义——当你坐在一个房间中聆听数百万不同的乐器不和谐地演奏,还要拼凑出一段旋律。

  正如其典型性,很多厂商已经在这个领域提供了解决方案,很多IT部门正在将这个问题作为新的和独立的问题来处理。但是也有一些领域已经面临了这样的挑战了,我们可以从中吸取经验。例如,我们所知道的地球上的每一件史前生物,都基于我们已经发现的相对小的表象骨骼和碎片样本。或想一下物理领域。在宏观上,我们的知识和原则已经使用围绕我们发生的或者故意制造的非常小的事件数量子集定义好。但是这个领域的结论是相当不错的。

  换句话说,大数据并不是下一个“大事件”。我们以前也面临过这样的挑战。这根本就不是我们正在创造更多独一无二的数据。新的内容是我们能够比以往捕获更多的数据。诱惑(以及市场推广)让你相信它相当有价值,但实际上不是。我的电子邮件收件箱“收获”了比十年前更多的消息,但是大多数都是垃圾邮件。我的电话用语“捕获”比以前更多的电话,但很多是从来不打的。

  想起小时候拿放大镜看周日四个漫画了。很吃惊地发现这幅漫画是由细小的墨点组成。如果印刷者弄丢了一些墨点,整个画面并不会被明显影响。在你成为一个“数据囤积者”之前想想这个,我并不是说并没有地方适合大数据——NASA对于太阳系之外的星球的研究是最突出的一个例子,但是并不是每个环境都能够到这个级别。

  细节决定成败,但是你可以通过应用对一个混合样例用统计学方法来证明,从而更轻松地得到更多信息。另一个是我们可以从周末漫画(Sunday funnies)和IBM展览中之道正确的可视化可以将小的点编织成为一个有用的图画。

翻译

张培颖
张培颖

云计算网站编辑

相关推荐