通过结合指标、日志和跟踪,IT团队可获得对其系统的前所未有的可视性,能够主动解决问题,而不是被动的“灭火”。那些部署全面可观察性战略的企业都报告了显著的改善。这些战略利用更全面的可观察性工具,该工具提供对IT系统的更细致的理解,以简化故障排除工作,并改善资源规划。
云可观察性已经从基本监控演变为AI增强平台。每种新的可观察性功能都支持新的优势,例如主动问题检测、更快的部署和更高效的成本优化。
商业咨询公司Protiviti的董事总经理兼全球云实践负责人Randy Armknecht表示:“云可观察性已从基本监控发展到智能AI增强平台。在过去的几年里,我看到越来越多的客户接受统一的可观察性堆栈,这些堆栈结合跨混合和多云环境的指标、日志和跟踪。”
战略和管理咨询公司Kearney数字和分析实践的合伙人Himanshu Jain也观察到,在监控销售、客户体验和减少技术债务等用例中,可观察性从其技术领域的根基渗透到业务领域中。
Jain说:“可观察性已经渗透到业务功能及其有用性,使其成为一种技术拉动,而不是推动。”
云可观察性工具的最新变化
专家们发现可观察性工具的几个重要变化。这些更新正在利用新信号、开源新跟踪方法、AI和FinOps原则。
IT咨询公司Everest Group实践总监Titus M表示,其中值得关注的新趋势包括:
- 持续的相关性。指标、日志和跟踪正在被合并为更复杂的多信号模型,这些模型现在包括连续分析和真实用户体验数据。这为现场可靠性工程师提供背景信息,关于什么出故障以及谁感觉到这个故障。
- 开源化。OpenTelemetry现在是默认的电线格式,超过70%的买家在RFP中要求使用它。这结束了专有代理,并简化管道。
- 无代理。基于 Extended Berkeley Packet Filter、无代理内核跟踪已迁移到Grafana Pixie等主流工具中。这提供了深度延迟可见性,开销可以忽略不计。
- AI增强。AI和机器学习已经从警报降噪转向自动化的根本原因分析助手。这通过帮助工程师总结原因,减少平均维修时间。
- 财务监督。FinOps原理应用于遥测,例如日志再水化、自适应采样和分层存储。这有助于团队平衡可观察性深度和成本。
可观察性用例
以下是一些真实示例,说明企业如何开始应用这些新功能来解决问题、降低成本和提高复原力。所有这些示例都是由可观察性专家讲述,基于具体用例或他们与很多客户的经验总结。
国家机构公民服务门户网站中断
Titus对一个国家机构进行了案例研究,该机构在纳税截止日期高峰期间出现间歇性503错误。来自合成探针和真实用户监控数据的数据显示,支持的Kubernetes基础设施超过了服务级别协议(SLA)阈值。对Kubernetes的分析发现一个容量不足的API pod。该团队将API pod副本的数量增加一倍,错误率迅速下降97%。
容器编排配置错误导致微服务延迟
技术服务提供商TEKsystems全球服务的技术现代化总监Armando Franco表示,基于Kubernetes的微服务应用程序在面向公众的API上出现些许延迟。传统监控显示这个问题,响应时间较慢,但没有提供明确的根本原因。现代可观察性平台帮助客户跟踪跨服务的请求路径,并识别特定输入点的延迟。进一步分析显示,由于CPU限制配置错误,容器频繁重启。
可观察性平台与AIOps引擎配对,自动将资源峰值与容器行为相关联,并在全面中断发生之前标记了问题。该团队应用了基础设施即代码修复,并部署了更新的资源策略。Franco说:“原本手动诊断需要几个小时的问题在几分钟内就解决,显著提高可靠性和客户体验。”
子商务公司发现超时错误
UST全球云咨询主管Rick Clark曾与一家电子商务公司合作,该公司在限时抢购期间经历了间歇性结账失败,无法通过传统监控确定根本原因。他们部署了Honeycomb的分布式跟踪和高基数分析工具,这帮助他们发现,只有在特定条件组合时才会出现问题。
具体因素包括来自特定地理区域的客户在高流量期间使用特定付款方式。跨多个维度,对跟踪数据同时切片和切块分析显示,第三方支付API对特定区域端点具有不同的超时行为。修复工作涉及部署断路器,并调整这些特定条件的超时值。
减少停机时间,并提高问题解决率
托管IT服务提供商Ensono的Azure产品工程杰出高级总监Dugan Sheehan表示,他们使用几种工具来减少停机时间,并改善问题解决。例如,生成的每个警报都会通过预测引擎来确定警报成为重大事件的可能性。根据评分,可以启动快速响应活动。接下来,结合历史警报和变更信息,以帮助诊断问题。这里的问题解决形式包括开放ServiceNow 更改、相关提醒和量身定制的知识库文章。
如果问题反复出现,可以建议提供问题单,以尝试全面识别和解决根本原因。在某些情况下,可以自动检索进一步的诊断,以提供最终决策标准。例如,在高CPU的情况下,Ensono自动调用Datadog,以提取同一警报时间段的历史进程利用率指标。然后将此信息提供给客户,以确定是否需要重新启动或调整规模。
API配置错误导致的延迟峰值
全球咨询公司Protiviti的董事总经理Randy Armknecht与一家金融服务客户合作,该客户在投资组合仪表板上面临延迟峰值。通过使用分布式跟踪和实时指标,可观察性工具识别到一个配置错误的API网关,该网关正在限制请求。当他们确定问题后,他们就能在几分钟内恢复性能。
识别云成本超支
在另一个项目中,Armknecht与一位客户合作,该客户使用可观察性从导致云过载的被遗忘的试点项目中识别闲置计算。在这种情况下,收集成本遥测的可观察性平台能够捕获有关效率的信息。这指导了团队重新分配工作量,并将成本降低了30%。
Armknecht说:“这些解决方案通常涉及将可观察性集成到CI/CD管道中,设置政策驱动的警报,并将见解与业务结果保持一致。”这是一个示例,说明可观察性如何越来越多地被用于技术领域之外,以支持业务和财务团队做出更好的运营和财务决策。
Protiviti公司董事总经理Randy Armknecht指出:“我们还看到,对量身定制的可观察性框架的需求不断增加,这些框架使FinOps、合规性和业务关键绩效指标保持一致,使可观察性成为战略推动因素,而不仅仅是技术上的必需品。”
诊断医疗错误信息
Qoob公司首席技术官Mikael Quist是专门为AI和GPU云工作负载构建的专业数据中心的开发人员,他讲述了一个假设的示例,以说明新的AI可观察性工具如何帮助解决幻觉问题。在这种情况下,医疗保健提供商可以使用专门的LLM可观察性平台,例如支持语义评估指标的LangSmith,这些平台可以突出显示与医学上准确响应的偏差。
通过分析提示和响应日志,以及实时成本仪表板监控模型交互,工程师可以快速将问题追溯到最近的提示更改。此信息指导他们恢复有问题的更新,并部署检索增强生成,以提高事实准确性和稳定性,在幻觉问题影响患者安全之前解决它。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
翻译
相关推荐
-
阿里云力争成为全栈AI服务商
在全球人工智能(AI)争霸赛中,阿里云发起新攻势,他们发布大量新的AI模型、代理开发平台和云基础设施升级,以争 […]
-
云数据备份和恢复适合你吗?
现在,很难找到完全没有使用云服务的中型或大型企业。但是云备份和恢复是你数据的正确选择吗? 亚马逊、微软、谷歌和 […]
-
云计算对VMware现代化至关重要
自Broadcom收购VMware以来,72%的企业报告称,由于其提供商的许可模式发生变化,其虚拟机管理程序环 […]
-
通过开源解决云可观察性问题
现在,企业需要处理大量数据以获得运营洞察力和云意识,他们经常不堪重负。传统的单一用途工具根本无法获得可操作的云 […]
