大数据平台:Hadoop轻盈起舞

日期: 2011-12-20 作者:张培颖 来源:TechTarget中国

经济低迷让众多公司感到力不从心,最终高管们寄望于获得比以往更多的信息,以便他们可以做出正确的决策。然而,在IT服务公司Avanade所做的一项有543位业务和IT高管参与的调查中,我们发现高管们其实感觉正在被数据所淹没。所以问题未必就要收集越多的数据越好,而是要能够识别出业务相关数据。

  大数据技术正在迅速发展。各类分析机构对于大数据的报告也是层出不穷。而目前,能够使用该技术的公司拥有非常精通技术的IT人员,能够根据这项技术的发展和本公司的具体需求来进行调整和适应。IBM指出大数据的三个要素是容量、速度和种类(Variety和velocity和volume)。那么对于企业而言,面对具备这些特性的数据该如何管理和治理呢?

  大数据平台

  曾听到这样一种预言,未来五年,半个世界的数据将会出现在Hadoop中。为此,相关厂商提供了各种各样的连接器和方法,来访问和分析Hadoop存储的信息,但问题是如何利用存储于Hadoop中的信息?于是“大数据平台”概念问世。根据IBM的观点,“大数据平台”主要包含五个核心的功能:

  (1)容量、速率和种类。大数据不是一大堆数据,来源形式不同,可能是结构化的,也可能是非结构化的,可能进入平台的速率也不一样,都要处理。

  (2)分析。这也是IBM常说的从大数据中提炼出一种数据洞察力,而且不是单纯地将不同的数据源和各种信息转化成一种结构化的关系格式。

  (3)企业级功能。高可用性架构支持硬件和应用失败;运行在可扩展的硬件上,能够动态增加结点;数据访问控制的安全保护。

  (4)易用的环境,这一点尤其是针对开发者。因为毕竟Hadoop和MapReduce还是不简单,如果说有一个平台可以让一般水平的开发者能够更容易地利用Hadoop,这对于企业的业务来说是不无裨益的。

  (5)集成。大数据的出现不能成为企业新的“孤岛”,为了能够避免这种情况的发生,平台就需要能够支持用一些关系数据技术等资源来集成大数据环境,把大数据集成到数据仓库中。

  IBM软件集团大中华区信息管理软件总经理卢伟权先生在“大数据时代的信息管理”IBM IM年度媒体发布会表示,对于非结构化数据如何管理与分析将成为IBM未来一年在大数据技术上的关注点所在。

IBM软件集团大中华区信息管理软件总经理卢伟权先生

IBM软件集团大中华区信息管理软件总经理卢伟权先生

  未来一年,信息整合和治理将出现前所未有的重要性,对于大数据集成平台而言,主要关注于数据来源,如何管理和治理。在这一点上应该考虑几个主要的问题:集成多种源,大数据的处理环境并不是数据的发源地。数据质量和数据管理,如果要用这些数据做分析并制定决策,这些数据就要能够信任。这一点而言,大数据平台必须支持数据质量和数据治理。卢伟权介绍:“我们数据管理这一块最主要是要提供一个平台,让我们的客户可以在这个平台里提供的数据和提供的信息是最准确的。”

  Hadoop和大数据

  毫无疑问,Hadoop和大数据正在影响如何处理海量数据,而且同样毫无疑问的是大数据已经吸引了主流业务的目光。Forrester的调研也显示客户已经不在询问“什么是Hadoop”了。但是我们也要问,谁来提供稳健的Hadoop解决方案呢?

  IBM中国开发中心信息管理首席架构师及大数据架构师陈奇博士介绍:“Infosphere Biglnsights是企业级平台,建立在Hadoop的基础上。用于对静态大数据进行分析。”

IBM中国开发中心信息管理首席架构师及大数据架构师陈奇博士

IBM中国开发中心信息管理首席架构师及大数据架构师陈奇博士

  Hadoop提供两层东西,一层简单的存储系统,是分布式的存储系统,它的存储把文件分成不同的小块,存在不同的节点上,每一小块都有备份,不是在单一节点上,可以自己增加节点,增加节点又可以增加容量,为什么可以处理大数据,因为它的节点是可以随时随地增加的。

  二是运算框架。陈奇博士介绍谷歌最早使用MapReduce技术,而Hadoop则基于这项技术,非常适合读取密集型、面向成批的应用程序。陈奇博士说:“它的理论很简单,像满足谷歌数据量非常大的需求,它需要存储很便宜,PC服务器就可以,把文件系统做成虚拟化的,可以分布在不同的节点上,增加了节点就增加了容量,就进行了并行计算。但光有这个架构是远远不够的,所以IBM在Hadoop上的BigInsights做了很多改进。”

  Hadoop本身不提供分析的功能,IBM Biglnsights则增加了文本分析功能。文本分析要能够为获取的数据预设一种环境,就比如,处理无数的源的时候,要能够确定这个信息是否是你关心的。这也可能意味着我们要集成MDM系统的数据,或者其他企业应用中的数据。再把这的信息放到一种环境中。

  对于当今企业,除了能够掌握大量信息所产生的价值之外,如何快速响应需求,敏捷应对市场变化成为制胜挖宝,而实时分析则成为大型企业追求的目标。陈奇博士介绍Infosphere Streams能够即时处理、过滤并分析流数据,他说:“Streams其实就是一个程序的架构,所以它的数据源是各种各样的,既可以是结构化,也可以是非结构化的数据源。这些数据源的数据量是非常巨大的,Streams利用的架构就是我刚才说的在内存里进行处理。”Infosphere Streams能够提供编程模型、控制手段、基础设施,而且在需要按比例扩展流程处理时,可以跨越分布式X86处理节点部署和操控这些应用程序。

  大数据技能

  大数据分析对于企业的价值不言而喻,随之而来的就会有很多工作挑战等着我们。新世纪大数据分析团队会需要哪些技能呢?自然包括语言处理和文本发掘,还要精通Clojure、Scala、Python、Hadoop和Java;同样也包括用像R和Mathlab这样的工具进行数据发掘的技能;还要懂得脚本和功能性语言,像Erlang和LISP,像Cassandra和CouchDB这样少见的新的数据库开发技能。

  但未来,新生事物会逐渐成熟,工具则成为用户的得力助手。厂商也根据不同的用户水平制定了不同层级的工具。于企业而言,大数据的独一无二之处在于,企业可以将大数据作为一种探索来进行,而不是回答摸个特定的问题的方法。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

张培颖
张培颖

云计算网站编辑

相关推荐