通过开源解决云可观察性问题

日期: 2025-08-23 翻译:邹铮 来源:TechTarget中国 英文

现在,企业需要处理大量数据以获得运营洞察力和云意识,他们经常不堪重负。传统的单一用途工具根本无法获得可操作的云见解,这些工具使用范围有限,而且使用起来往往具有挑战性。

随着IT系统变得越来越复杂,可观察性也经历很多变化。例如,在21世纪初,整体基础设施开始转向微服务、云计算和高级无线网络,这需要不同的方法来管理和可视化性能。当时,这些相关产品主要是被动式,与现在主动、细粒度的产品形成鲜明对比,现在的产品专门为解决复杂分布式环境而设计。

随着企业寻求满足其现代IT基础设施的新资源需求,全面的可观察性可提供技术优势,包括可确保可靠性、高性能和创新。企业应该更好地了解遥测数据如何改进自己的系统,以及开源工具如何提供最大的灵活性。

全面云可观察性的4个支柱

云可观察性通过收集和整理遥测数据进行分析,确保所有部署模型保持高效运作和一致性。通过可观察性提供的数据指标,可解释事件发生的原因,并帮助管理员发现问题的根本原因。这些数据源包括指标、事件、日志和跟踪(通常称为MELT),管理员用这些数据来更好地了解系统行为、部署自动化和加强安全性。

这些指标如下:

  1. 指标。汇总并提供与系统性能相关的数值数据,包括CPU、内存和系统请求。管理员可以观察随着时间的推移而发生的变化,并调查异常情况,例如内存或CPU使用率突然飙升。
  2. 事件。捕获跨云环境的资源变化,以准确指示发生异常的位置。
  3. 日志。显示导致状态更改或系统错误的具体操作顺序。
  4. 跟踪。捕获跨多个系统的请求流,并使IT团队能够确定瓶颈,并优化整体性能。

根据Grafana Labs的第三次年度《可观察性调查》报告显示,企业完全依赖指标(95%)和日志(87%),这两者都用于遗留监控,以及跟踪(57%)。通过关联这些指标,IT 团队可以提高服务性能,并加快故障排除速度,以解决问题,例如服务速度慢或安全漏洞。

MELT方面,关键的可观察性最佳实践包括以下内容:

  • 考虑使用结构化日志,例如JSONGrafana Loki,以及集中日志存储,以便于检索。
  • 确保日志有效地整合数据,通过使用日志记录工具,例如Amazon CloudWatch LogsDatadogDynatrace,捕获相关的背景信息,并整合来自指标和跟踪的所有遥测数据。
  • 为了加快IT问题的解决,提供实时功能,整合用户体验数据以及业务环境与所选的集成平台。

可观察性在分布式系统中的关键作用

通过部署云原生可观察性,IT团队可以跟踪每个服务、应用程序和连接的行为。他们还可以在问题影响最终用户之前,快速调整服务交付,以及推出新功能和部署新工具。

分布式服务、云计算和高级无线网络的趋势要求开源产品的多功能性,以减少平均检测时间和平均恢复时间。两个指标的低比率表明问题解决和恢复时间很快,使IT团队能够有效地分配资源并微调环境以满足需求和用户要求。

在进行根本原因分析时,IT 团队不仅可以隔离核心绩效问题,还可以更快地解决这些问题。例如,存储管理问题可能会导致数据库冲突,导致服务变慢。管理员可以关联MELT数据,以发现问题的来源,并防止问题再次发生。

管理员和DevSecOps还可以通过使用云可观察性来更快地检测异常,根据明确的背景信息准确响应网络威胁来提高安全性。最后,随着云需求复杂度的增长,自信地扩展的能力是基本要求。

开源可观察性工具的用例

对于维护虚拟和分布式服务来说,传统的可观察性工具通常效率低下。例如,它们很难以不兼容的格式处理非结构化数据,这导致孤岛式流程,且只有有限的自动化能力和繁琐的管理功能。收集相关数据方面存在的问题会进一步使云服务管理复杂化,让监督和取证调查变得困难。

此外,云服务提供商提供专有的可观察性功能,但它们可能会产生毫无意义的数据噪音,这使得很难确定问题发生的地方。然而,企业仍然很担心供应商锁定的情况,并对更换提供商的复杂性和成本持谨慎态度,例如当其云偏好发生变化时。例如,高退出成本通常会导致企业需要花大价钱和精力去迁移可观察性数据、工具或基础设施。特定于供应商的数据格式和专有API使这种情况更加复杂。

管理员正在选择独立的、开源的可观察性工具和集成平台。这些动态替代方案不仅满足IT技能水平和预算限制,还为数据分析、主动解决问题和持续云服务改进提供全面的可见性。

主流的开源可观察性选项包括以下内容:

  • Datadog。一个可观察性平台,为分布式环境的每一层提供全面可见性。
  • Dynatrace。用于监控基础设施和应用程序的集成平台,包括网络、移动应用程序和服务器端服务。
  • Grafana。用于探索和可视化指标、日志和跟踪的集中平台。
  • OpenTelemetry。包含APISDK和用于收集遥测数据的工具的框架。
  • Prometheus。系统监控和警报工具,可收集和存储指标。

部署考虑因素

管理员应考虑一些参数,以成功部署开源工具或集成云可观察性平台。主动解决问题和持续改进是实现开源云可观察性成功的关键基准。

在选择和部署开源可观察性工具时,请考虑以下步骤:

  • 定义可观察性目标。
  • 识别需要监控的最重要的数据源。
  • 进行成本效益分析,以确保积极的投资回报率。
  • 确保该工具与当前的IT基础设施无缝集成,并提供长期的可行性。
  • 逐渐摆脱对当前专有工具的依赖。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

翻译

邹铮
邹铮

相关推荐