实时Web数据的实时分析

日期: 2011-02-13 作者:郑昀 来源:TechTarget中国 英文

  Real Time Web大多指对Twitter为首的微博客海量数据进行快速索引,搜索结果实时滚动显示。快速索引,比拼的是索引多久更新一次,5分钟、1分钟乃至10秒,比如对任意输入的查询关键词,都能看到1分钟内发布的微博客消息(微博消息足够短,有机会快速索引)。

    但是实时分析就不那么容易了。实时分析大致有几种:

  趋势分析:不同网站对查询关键词每日提及次数变化趋势。Ubervu做得不错,如Chile。
 
  热门链接分析:把关联结果中相对热门、相对重要的链接挑出来,单独展示,可以按时间排序或按重要性排序。OneRiot比较擅长这一点,如搜索Chile。热门链接的甄选一般都是依据Twitter等微博客消息的链接分享次数。

  语义分析:

  情感趋势分析:即Sentiment analysis或opinion mining。Big Event这一点做得也不错,诸如:美团网页面左侧的王兴饼图,韩寒PK刘谦中的刘谦和韩寒两个饼图。ubervu则对每一个conversation都做了情感分析,并画出了情感变化趋势曲线。

  关联分析:

  与此查询关键词有关联的其他搜索建议词

  关联的或相近的Topics或者叫做Entities:这个Daylife和Evri做得都不错。

    除了OneRiot外,下面再举两个实时分析的Real Time Search Engine网站:

  一、ubervu的启示

    ubervu自称是Real-time Social Media Analytics,颇有一些功能。

  1、把某一个关键词下的数据整合为一堆Conversations,蛮有意思的。其实也就是找到关联资讯中的许多热门链接,然后把推荐过和评论过核心链接的信息条目称为N people discussed the story,整个story就称为Conversation,其实就是热门链接推选。

  这样确实能够把关联资讯中的噪音去除,并且让相对更重要的资讯排在最前面。和OneRiot是一样的。

  2、它还可以在每一个story中进行情感趋势分析,但需要付费成为会员才可以查看。估计是计算整体趋势,个人认为这种统计方式很不靠谱。我一般都强调针对“锚”计算情感趋势,否则无的放矢,易于失真。

  3、它可以给出关联资讯中不同social sites占多大比例,并针对不同sites画出不同的提及次数趋势曲线。

  意义不大。但也算是一种观察维度。

  二、Ellerdale的启示

    ellerdale trends处理的数据是海量的,Twitter、Wikipedia、还有许多各种类型的数据源。Ellerdale宣称擅长快速索引high-volume data feeds,其中一个数据源就是Twitter的firehose。为此他们开发了一个容错的分布式数据库。

    它不仅仅是搜索引擎,它的语义引擎创建了一个话题数据库(它能检测到哪些是Topic,它甚至有这样的Topic:United States Senate 和 United States presidential election 2008),并把Topic划分为people、sports、films、politics等分类。

    它和ubervu一样,都能提供up-to-the-second的分析能力(即基于搜索数据之上的实时分析),几乎没有滞后。

    你会发现它和ubervu都有一个共同的目标:试图更快更好地理解the information and opinions that people are sharing。

  Topics包罗万象

    对于一个机器自动检测出来的topic,比如Jessica Alba,将进入topics分类列表,它的页面会依次列出:

  • Wiki的条目解释:提供一个条目解释。同时还会列出N个Wiki的链接,如Freebase、Wikipedia等。而且对于不同领域的人物,链接类型会不同。如好莱坞明星,会列出几个知名电影网站的人物条目链接。比如政治人物Sarah Palin会列出她的Twitter帐号链接。对于John McCain甚至给出了纽约时报的人物链接和他的两个官方网站链接。
  • 关联的其他topic:比如Halle Berry,大致是同一领域的人、组织等。
  • message stream:这主要是twitter数据流。缺点是没有合并重复,甚至是没有合并同一个id发出的重复消息,导致某一个id刷屏。
  • message history:一个曲线趋势图。
  • top articles:关联资讯。会标明Rank级别。以及有几个mentions,可能指的是Twitter中提及此链接的次数吧。貌似Rank和Mentions次数之间有正比关系。

  

  分类频道的榜单模式

    Live Trending会列出某个领域的Top Ten人物,每一个排名都会列出三个Topic,如Films的。

    每个Topic右侧都会列出一个数字,如:3,647 mph,貌似是指每小时有多少条关联articles或messages。

实时分析

  对于Topics的聚合、整理和分析,不少语义应用都做过,比如说:

  Daylife的Connection Engine,如伍兹,如Johnny Depp;Evri,如史蒂夫乔布斯,如iPad。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

作者

郑昀
郑昀

相关推荐

  • 预测分析指导手册

    电影《预见未来》中主演尼古拉斯·凯奇具有预测未来的能力。他能预见未来几秒中将会发生在他自己身上的事情,从而可以避开凶祸,改变自己的命运。如果我们在工作中也能有这样的一种能力,岂不快哉!但从某种意义上讲,预测分析技术就可以帮助我们做到这点。

  • 事件驱动企业文化:分析的作用是什么?

    分析在这个事件驱动文化中将会扮演哪种角色?现实生活中受益于此的公司的真实例子吗?

  • 事件驱动企业文化:改变是关键

    形成事件驱动的企业文化对公司来说究竟有多重要?你认为企业实现事件驱动文化的关键是什么?

  • 如何随时随地获取信息实时价值?

    业务活动监测(BAM)听起来足够简单。基本前提是完整的、均衡的实时信息或者接近实时的信息应该对任何企业的管理都要有非常高的有用性。