前面说了云计算三大利器其中的两个:Nagios、Ganglia。这里说一下最后一个Splunk。
Splunk:像查Google一样查日志
有了Nagios和Ganglia,算是成功了一大半。作为一名优秀的管理员,我们需要具备一定的Troubleshooting能力,对一些常见的问题能给出解决方案。那么,对日志的分析就必不可少。
但Hadoop/HBase的日志分布在各个机器上面,而日志之间关联性强。Client端的错误有可能是Region Server引起,而Region Server的错误有可能是Zookeeper导致。有没有一个统一的日志管理平台呢?
众里寻它千百度,蓦然回首,我们找到了Splunk——日志界的Google。
很遗憾,Splunk不是开源的,但它的免费版本提供每天500MB日志索引。如果数据量较小,通过定义好Log的级别,基本上也能满足需求。但对于数据量较大的公司,就有些捉襟见肘。
Splunk支持AdHoc的日志搜索,而且可以与Nagios配合使用。比如Nagios报警某台RegionServer端口不可达,我们收到Notification后,登录Splunk,直接搜索shutdown和host名称,找到RegionServer退出的日志。点击详细信息,分析日志,就能快速定位问题。如图6所示。
图6 Splunk与Nagios配合使用进行日志搜索
对Hadoop和HBase有了进一步了解后,我们可以利用Splunk实时检测日志中的关键字,定义关键字规则,如监控“shutdown”、“quit”、“ERROR”、“Zookeeper Session Expired”等,一旦出现,利用Splunk的Notification功能,发出邮件通知管理员,管理员通过Splunk定位问题,就可以在系统真正出现问题之前,对系统进行调整,防患于未然。
总结
搭建一套云计算平台,强大的监控管理系统是必不可少的。当然,任何工具都不是万能的,在实际维护过程中,我们也发现,Nagios和Splunk经常出现误报,如果规则定义得不好,大量的警报邮件如潮水一样涌来,反而掩盖了真正的问题。可以说,在云计算平台的运维管理上,没有一劳永逸的事情,随着规模的不断增大和应用的不断多样化,需要大家不断地实践和总结。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Oracle Cloud Management:混合云异构管理如何做得到
在复杂多样的应用拓扑结构中,如何管理好所有应用?另外,运营数据越来越多,如何在散落的、毫无关联的孤岛和混合云中找出有用信息?
-
Rackspace调查:技术的快速革新给IT决策带来更多挑战
Rackspace今日宣布的一项新研究显示,近三分之二(66%)的IT经理表示,与10年前相比,当今快速的技术革新让市场决策变得更为艰难。
-
多云实施管理工具知多少
所有的云计算都不是相同的。虽然它们有着共同的操作集合,但是大部分的云计算都有着一个独特的API或者操作行为。
-
四大关键技巧改进云网络性能
云网络需要大量的维护和监测。然而,只是的在问题上不断地扔钱,这并不能解决糟糕的性能问题。