如何制定正确的IT监控和管理策略

现代化进程的不断发展，企业业务的不断增加，企业利用的资源也在不断地增加。但为了保证整个IT系统稳定、可靠持续运行，为业务部门提供优质IT服务，组织必须对IT时行实时监控和管理。但是对此，你是否已经了一个行之有效的IT监测与管理第策略呢？

随着越来越多的组织开始拥抱混合IT，监测和管理这一环境的任务变得越来越复杂。虚拟化和云抽象层的添加，使得IT运维部门在检测和解决性能/可用性问题上遇到了极大的挑战。如果没有正确的流程和工具，服务恢复就会变得很困难，持久的流程和宕机就成为永恒的问题。

Forrester进行了一项调查研究，是关于当前IT管理性能及关键应用和不断增加的复杂IT环境下服务可用性能的能力的一项研究。以下是这一调查的主要发现，组织对哪些方法开始进行改进，以及他对管理TI运维使用了哪些方法。

组织没有能力快速找到或解决问题

除了常常经历宕机的痛苦外，另一个主要问题是运维组织要花大量的时间找到问题的根源。在这项调查中，结果显示42%的的受访者表示，在鉴别服务问题根源上花一个小时甚至是一个星期。甚至有更糟糕的，调查中的60%的组织涉及到4到10全职员工来解决这一问题。当这碰到成本时，这对于公司来说就是一个巨大的问题了，正如前面提到的，一个小时的宕机时间就有可能花掉上百万美元。

为什么运维团队会陷入困境？

宕机问题和平均恢复时间的两个原因都与IT监测工具群和不良的容量规划有关。

超过50%的受访者者使用了5个甚至更多个监测工具，更令人震惊的是有14%的人甚至使用到20多种不同的工具来发现并解决问题。这导致了检测缓慢，分析不准确。即使这样，公司在监测工具中所找到的一个最大好处，正好是这些工具在影响用户之前能鉴别出问题。直到用户或业务领导联系之前，28%的受访者都不会意识到服务降级了。

这些工具并没有提供必要的智能，来让组织更高效地使用一个解决方案。因此，来来自于不团队SME小组，在出现中断时每次都要重新组织。这即不高效也不灵活。

容量规划仍然是IT运维的致命弱点。没有计划的容量规划是性能和可能用性问题产生的头号原因。他们需要更好的洞察他们的环境，了解使用模式，并开始预估将来需要的容量。

你可能做什么？

为了获得云计算和虚拟经提供的敏捷性和弹性，公司必须加强他们的监测和管理策略。监控不能孤立，你无法承担20脱节的监视工具所带来的后果。你需要一个统一的工具，它可以监视虚拟化、云计算和物理基础设施以及他们的资源，如存储和网络。像Zenoss Service Dynamics这样的解决方案可以监控你的整体环境，加快根源分析以及分析你的环境，为您提供趋势和模式，以帮助您更好地进行容量规划和基础设施的优化。虽然组织管理他们和环境来持续交付他们的SLA很关键，但是把监测做为IT计划策略的一部分也同样重要，这才是组织真正成熟的体现。

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

要发表评论，您必须先登录。

作者

: 蒋红冰

TechTarget云计算主编，主要负责云计算和虚拟化网站的内容建设。长期专注于IT前沿技术，对云计算、虚拟化、人工智能、区块链等技术都有了解；对行业趋势、市场动态有一定的洞察。