小议海量数据云计算创新

日期: 2012-05-13 来源:TechTarget中国 英文

  一,海量数据的运营压力

  无疑,无线互联网终于迎来了属于自己的春天:无线互联网各种产品如雨后春笋般涌现,以手机QQ为代表的无线互联网产品迅猛发展;同时,无线网民数也出现激增,据粗略估计,国内无线网民数已达3.5亿。随之而来的,是服务于不同产品的运营分析压力和运营数据的暴发式增长。目前,无线BU日处理运营数据达10T,且涉及不同产品多维度复杂指标的分析运算,已经成为一头当之无愧的大象。如何让大象也能翩翩起舞,以最小的开发代价,实时准确地输出多维度的运营数据,是无线BU数据平台组需要解决的重要课题。

  于是,以一页式快速配置开发为基础特点的海量数据云计算平台就应运而生了。该平台可覆盖80%以上的统计指标,充分结合灵活性和通用性,最大程度为数据分析人员提高开发效率的同时,完成海量数据的分钟级输出。

  二,云计算平台的创新历程

云计算平台的创新历程

图表 1

  如表一所示为业界通用的统计分布式解决方案。统计处理机到各业务机拖取日志,单独编写统计代码处理原始日志和数据,将统计结果注入数据库并展示。

  优点:有利于完成定制化开发

  缺点:通过编写特定代码完成统计开发的方式造成统计开发效率的低下、代码质量难以保证。

  在无线数据暴发式增长的情况下,这样的技术架构已经难以支撑更高层次的运营分析。如何归纳提炼出通用性统计指标,复用代码,做到一次开发,多次利用,迅速快捷获得统计指标呢?模板化可配置的分布式运算平台成为必然之路。因此,云计算平台应运而生。

云计算平台应运而生

图表 2

  如图表2所示,云计算平台采集用户通过配置页面填入的自定义信息,将其转变为xml文件,结合mapReduce计算模板,采用hadoop分布式运算技术,完成海量数据的可配置输出。其特点有:

  一页式配置开发,提升数据分析效率

一页式配置开发 提升数据分析效率

图表 3

  如图表3所示,经过简单的配置,即可自动在数据库中生成相应计算结果。省去了烦琐的脚本编写过程。

  以某产品的基础统计为例,神马采集、日志db配置,各种复杂计算逻辑、sql,原有代码为6千多行,至少需要2周左右的时间才能编写完毕,给开发和维护都带来严重的负担。而通过如图表3的配置,可全程通过配置实现零编码统计需求。开发人员实现登录用户数/登录次数/累计用户/新增用户/留存用户/活跃用户/有效用户,开发时间仅为30分钟左右,极大减轻开发人员的负担。

  统计指标覆盖面广、扩展性强

统计指标覆盖面广 扩展性强

图表 4

  如图表4所示,云计算平台涵盖从常规指标、历史累计指标到用户健康度、用户分析类等不同层次的各种统计指标,已形成可不断扩充的统计指标体系。同时,统计维度还支持普通维度、cube/custom/rollup等复杂维度组合形式。

  云计算平台的统计指标覆盖率可达80%以上。

  可维护性高

  有BUG!影响了指标输出!赶紧查问题吧!”这是统计分析人员经常碰到的场景。而现在有了云计算平台,一切变得不一样了!配置化的设计最大程度保证了代码质量,降低了人为编写代码的出错机率。有疑惑,检查一下自己的配置,至少95%的错误就可得到解决!

  支持任意维度的组合计算

  对任意维度(QQ号码、IMEI、IP)等可任意组合计算,得到统计结果。以下统计指标,可以通过一次配置全部完成。(注:以下数值均为虚构)

支持任意维度的组合计算

图表 5

  中间用户级汇聚文件接口自动对接应用系统

  做数据分析时,我们可能会碰到这样的场景:计算出这个月的活跃用户数,并且将用户文件输出,以用作发tips推广用。在云计算平台,这一切都可通过以上的配置实现,不需要多次开发。且所有中间文件直接通过TDW,对接TA等公司级应用系统,可供下一步的分析处理用。

  分布式并行计算,支撑海量数据的高效处理,统计结果可达分钟级输出

  由多台处理机并行处理,可支持线性扩容,海量日志时的运行速度不再是瓶颈!

海量日志

图表 6

  如图表6所示,在云计算平台强有力的支撑下,每天T级(300亿条记录)的海量日志也可做到分钟级的输出!(注:以上数值均为虚构)

  小结:云计算平台通过高度抽像归纳业务逻辑进行封装,形成通用计算模板,让开发人员释放出来做更有意义的统计分析,同时通过计算资源透明与共享,提高系统运算能力和可靠性,成为居家旅行杀人放火之必备良器。

  三, 云计算平台与运营平台的紧密结合

  试想一下,我们做运营活动时,总希望能够快速知道用户对活动的反应情况,以便迅速调整运营方案,达到最佳的运营效果。

  在某产品的运营活动中,产品人员想向用户下发tips,以达到语音聊天的推广目的。但在推广过程中,产品人员有自己的困惑:在tips的接收人群中,有多少用户受到了骚扰,有多少用户有意愿使用语音聊天?我们的推广策略是否需要进一步调整?不用担心,有云计算平台迅速为我们得到分析结果!

  经过简单的配置(耗时约20分钟),即可得到如下的分析数据:

  骚扰!严重的骚扰!于是产品人员立刻改变运营方式,改粗放式运营为精准运营,只针对特定版本的活跃用户进行投放,被骚扰的用户比例立刻下降至2%!运营活动获得圆满成功

  每天近10T的数据被运营人员握在手心,随时掌握第一手运营数据,还有什么不可能呢?

  谁说大象不能跳舞?

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

相关推荐