NoSQL可向用户提供可延展性、灵活性和速度

日期: 2011-08-29 来源:TechTarget中国 英文

  根据在加州圣何塞举行的NoSQL Now会议的许多讨论来判断,NoSQL数据库以及CouchDB和Hadoop等数据处理框架的用户正在为速度、可延展性和灵活性部署这些技术。

  EMC高级工程师Subramanian Kartik在一次讲话中解释说,EMC正在使用把传统的数据库与新奇的NoSQL数据商店混合在一起的方法分析大众对该公司及其产品的接受程度。

  这个名为感情分析的过程包括扫描数百个技术博客,找到提到EMC及其产品的信息,使用文本中的单词分析这些参考资料是积极的还是消极的。

  为了进行分析,EMC收集提到该公司的所有博客和网页的完整的文本,把这些信息编辑称在其Greenplum数据分析平台上运行的一种版本的MapReduce。然后,使用Hadoop去除Web标记代码和非重要的词汇,从而显著减少数据集。然后,它把这个词汇表传送到SQL数据库,在那里进行更全面的量化分析。

  Kartik称,NoSQL技术在汇总大量数据集方面是非常有用的,而SQL随后可用于更详细的分析。他补充说,这种混合的方法能够用于许多其它方面的分析。

  Kartik说,那里有各种类型的信息。有时候你必须要进行令牌化、解析和自然语言处理。得到这个数据的任何有意义的量化指标的一个方法是把这个数据放到一个你能够很好地操作的环境中,放到一个SQL环境中。

  对于数字媒体公司AOL来说,NoSQL产品提供了在传统的关系数据库环境中可能使用的速度的数据量。

  Couchbase公司社区管理主管Matt Ingenthron在另一个谈话中说,该公司使用Hadoop和CouchDB NoSQL数据库运行其广告目标业务。

  AOL开发了一个系统,能够在用户每一次打开一个AOL网页的时候选择一个有针对性的广告。选择什么广告是以AOL拥有的用户数据为基础的,同时还有一个猜测那个用户对什么广告最有兴趣的算法。这个过程必须在大约40微秒中完成。

  源数据是很多的。所有用户的活动都记录在每一台服务器上。这些数据必须进行分析和组合以建立每一个用户的简介。广告代理商还要制定一套复杂的规则,规定他们如何为一个广告印象付费或者什么广告应该显示给哪一个用户。

  这些活动每天产生4至5TB数据。AOL已经积累600PB运营数据。这个系统拥有6500多亿密钥,包括每个用户一个密钥以及处理其它方面的数据的密钥。这个系统每秒钟必须对60万个事件做出反应。

  数据传输产生许多这种源数据。这些数据来自于Web服务器记录和外部来源。Hadoop Flume组件用于获取数据。Hadoop集群还执行一系列MapReduce工作以便把原始数据编辑成数据综述。

  AOL还使用Couchbase的CouchDB数据库作为来自传输的各种数据的交换站。因为CouchDB能够在不写入硬盘的情况下操作数据,它能够用于把数据传送到下一步之前迅速地分析数据。

  Ingenthron称,我们没有料到广告目标是我们的主要市场。但是,Couchbase最终满足了AOL和其它广告公司的需求。这个工作在技术上是复杂的,在非常迅速地处理数据方面有许多挑战。

  Elsevier Labs副总裁Bradley Allen称,科学和医疗出版公司Elsevier在从Mark Logic公司那里购买一个基于XML的非关系数据库系统的时候是在寻求更大的灵活性。

  Allen解释说,科学出版领域正从静态模式像更加动态的模式发展。在过去的几个世纪,印刷的科学著作、收集的杂志是知识的基本单元。它包括对作品、作者和贡献者、参考和其它核心信息组件的说明。虽然科学出版领域正向数字化发展,著作仍然是数据沟通的主要媒介。他开玩笑地说,我们仍处在马和马车的时代。

  Allen预测说,随着时间的推移,科学著作将分解为单个的要素,能够用于多个产品中。一个段落或者甚至一种说法都可以做注释和索引。然后,它们能够组合为新的著作并且嵌入在应用程序中吗,如医生可以参考的程序。通过使用分析技术还可以从这些著作中挖掘新的信息。

  考虑到这些问题,Elsevier正在它的杂志中注释这些著作。这样,这些著作就能够用于其它应用和服务中。一个XML数据库很自然地适合这个工作。新的内容类型可以轻松地添加到这个数据库。这个格式允许单个组件很容易地在新的混合应用和服务中重新使用。

  Elsevier采用这种新方法推出了许多新产品。其中一个是为学术管理员提供的服务SciVal。这项服务汇总他们机构内部的出版活动,为这个机构的学术实力和弱点提供一个量化的看法。另一个服务是Science Direct,是Elsevier杂志的一个全文本的搜索引擎。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐

  • IBM押注云计算加速转型

    苦苦寻求业绩增长的IBM似乎已经找到了方向。近日,IBM宣布收购NoSQL数据库公司Cloudant,此举可望让IBM控制NoSQL“数据库即服务”(DBaaS)。面对下滑的营收IBM进军云计算势在必行。

  • OpenStack现在可配置NoSQL

    专注于Trove数据库组件的OpenStack开发商Tesora公司宣布与Red Hat和MongoDB建立合作伙伴关系,让OpenStack更好地管理NoSQL解决方案。

  • 专有厂商锁定危险 缺乏NoSQL标准更危险

    在数据持久解决方案中做出选择已经不再局限于关系世界中了,因为NoSQL选择的范围和深度已经发生改变。

  • 采用模式法实现大数据设计

    随着组织开始利用新资源和新数据类型解决设计应用程序的问题,设计模式可以降低大数据的的复杂性,提升集成性能。