综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系,具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,就可轻松管理Hadoop/HBase云计算平台。
云计算早已不是停留在概念阶段了,各大公司都购买了大量的机器,开始正式的部署和运营。而动辄上百台的性能强劲的服务器,为运营管理带来了巨大的挑战。
如果没有方便的监控报警平台,对于管理员而言犹如噩梦,每天都将如救火队员一样,飞快地敲击键盘,用原始的Unix命令在多台机器中疲于奔命。
如果没有好的日志管理平台,对于开发者Troubleshooting更是一件泪流满面的事情。
而如果你是运维团队的总负责人,简洁清晰的Report则非常重要。Stakeholder们动不动就可能问起系统的SLA、机器的利用率等诸多问题,毕竟,公司为此投入了巨大的资金和人力。
朋友们,当我们管理起公司寄予厚望的云计算平台时,当我们面对如此多充满挑战的实际问题时,该怎么办?
概述
我们在搭建趋势云计算平台时,遇到了很多的问题和挑战。开始搭建时,第一次来了那么多性能强劲的机器,我们在感到兴奋的同时,也不免有些顾虑。大家坐在一起讨论,问题就列了满满一白板。
出了问题怎么办,有没有预警机制?
有没有可视化的管理界面?
管理平台需要自己开发吗?开发难度有多大?
有没有开源的管理工具?
那么多日志分布在各个机器上,有没有更有效的方法管理?
能否生成好的报表?
机器宕机,管理员能否收到短信通知?
如何做性能调优?
扩容升级时,能否给出依据?
带着这些问题,我们开始了自己的云计算平台管理和运营之旅,一路走来,收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。
图1 云计算平台监控架构
在这个系统中,我们综合利用了Nagios、Ganglia和Splunk,搭建起云计算平台监控体系,使其具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统,我们终于能够轻松管理Hadoop/HBase云计算平台了。接下来将简单介绍它们的特点和功能。
Nagios:云计算平台的智能报警器
总不能天天盯着机器看吧,因此我们首先关心的是机器的监控与报警。最理想的境界是:如果机器出故障了,我能第一时间处理;如果机器没有问题(最好永远没有问题),我能去喝茶、钓鱼和睡大觉。
发现机器有没有问题,对我们而言不是什么难事。写个脚本,Ping一下IP,Telnet每台机器的Service端口,如果增加了新机器就改改配置即可。但这样也太原始了吧,可视化效果差,不好维护,没有层次,不好管理,出不来报表,总不能老是用Excel人工写报表吧。有没有更好的方法呢?
有,你可以用Nagios。
Nagios是一个可运行在Linux/Unix平台之上的开源监视系统,可以用来监视系统运行状态和网络信息。Nagios可以监视所指定的本地或远程主机以及服务,同时提供异常通知功能。
Nagios可以提供以下几种监控功能。
监控网络服务(SMTP、POP3、HTTP、NNTP、Ping等)。
监控主机资源(处理器负荷、磁盘利用率等)。
简单的插件设计使得用户可以方便地扩展自己服务的检测方法。
并行服务检查机制。
具备定义网络分层结构的能力,并使用“parent”主机定义来表达网络主机间的关系,这种关系可被用来发现和明晰主机宕机或不可达状态。
当服务或主机问题产生与解决时将告警发送给联系人(通过电子邮件、短信、用户定义方式)。
具备定义事件处理功能,可以在主机或服务的事件发生时获取更多问题定位。
自动的日志回滚。
可以支持并实现对主机的冗余监控。
可选的Web界面用于查看当前的网络状态、通知和故障历史、日志文件等。
Nagios最好用的地方就是它将这些每天管理员做的工作自动化,你只需设定好要监听的端口即可,它会默默地工作,帮忙定时地去检测服务端口的状态,一旦发现问题,会及时发出报警。报警可以是电子邮件也可以是手机,从而使得管理员第一时间就能收到系统的状况。
Nagios的报表功能也很强大。管理员可以很容易地得到每天、每周和每月的Service运行状况。
图2 SPN 后台运行的所有Service的当前状态
如图2所示,红色部分清楚地标注有问题的机器,点开链接,就可以得到有问题机器的情况。虽然在HBase中,几台Region Server宕机不会对整体服务产生大的影响,但多少会影响到系统的Performance。而且,如果某几台Region Server频繁宕机,对整个系统的稳定性也会产生不好的影响。有了Nagios,我们可以快速定位有问题的机器,及时地将一些机器移除出HBase系统,待调整好了再上线运行,以保证系统的稳定性。
现在,Nagios已经成为了很多公司必备的监控工具。只需要简单地配置,就可以实现强大的功能,将管理员从日常烦琐的工作中解放出来。
有了Nagios,哪怕就是管理上千台机器,也不会手忙脚乱,而是有一种统领千军、运筹帷幄的感觉。
云计算管理三大利器之Ganglia
云计算管理三大利器之Splunk
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
Rackspace调查:技术的快速革新给IT决策带来更多挑战
Rackspace今日宣布的一项新研究显示,近三分之二(66%)的IT经理表示,与10年前相比,当今快速的技术革新让市场决策变得更为艰难。
-
多云实施管理工具知多少
所有的云计算都不是相同的。虽然它们有着共同的操作集合,但是大部分的云计算都有着一个独特的API或者操作行为。
-
四大关键技巧改进云网络性能
云网络需要大量的维护和监测。然而,只是的在问题上不断地扔钱,这并不能解决糟糕的性能问题。
-
网络监控工具弥补云监控短板
云监控可以收集一系列的性能数据,但是,网络的关键因素往往不能满足要求。必须借助于第三方网络监控工具,保证云运行能够符合标准。