博客/工程

Grafana如何帮助组织跨多个监视数据源管理SLOs

2021年7月23日3分钟

“SLO是SREs中最喜欢的一个词,”Grafana实验室首席软件工bob电竞频道程师Björn“Beorn”Rabenstein在他的演讲中说在2019年KubeCon + CloudNativeCon NA上演讲.“当然,这也有助于设计决策,设定正确的目标,并以正确的方式设置警报。一切都是好的。”

那么当事情变糟的时候会发生什么呢?

对服务水平目标(SLOs)发出警报的基本思想是在各种时间范围内测量错误率,然后对它们发出警报。如果每月的错误预算消耗得很快,您就会快速地进行分页;如果错误预算消耗得足够慢,以至于在工作时间内可以接受响应,那么您才会对人员进行检票。

站点可靠性工程师(SREs)通常通过密切跟踪一组服务水平指示器(sli)来确定应用程序的运行状况和性能。在这篇博文中,我们将回顾Grafana如何使可视化sli和错误预算变得简单和容易,当你的SLO处于危险之中时就可以采取行动。

一体化解决方案

sli通常使用多个系统进行度量和APM解决方案。bob彩票中奖计划

无论您使用的数据源是否基于普罗米修斯,Grafana企业——我们为自我管理环境提供的可观察性堆栈——具有独特的能力,可以将不同的数据源合并为一个全面的概述。然后,所有信息都可以组合到交互式仪表板中,使用服务器端数学表达式统一来自多个来源的错误预算。

例如,可以通过组合来自两个sli的最近30天的数据来创建一个总体SLO图Grafana云度量和批准的。

  • SLI 1 [Grafana云度量]的误差预算+ SLI 2 [AppD]的误差预算

使用Grafana内置的基于规则的格式,还可以突出显示违反SLI和错误预算超出的情况。然后,信息可以轻松地共享给更广泛的受众:Grafana的所有面板都是可输出的,可嵌入到下游系统中使用。

创建和操作sli

sli可以测量单个实体,如主机、pod或服务,也可以使用度量标签跨多个实体测量。

Grafana企业指标Grafana云度量,来自基于prometheus的数据源的sli是使用PromQL的强大功能构建的。Grafana Cloud -我们完全管理的可观察性堆栈-和Grafana Enterprise都有能力通过API或创建和管理sliGrafana的下一代警报插件,两者都是灵活可行的。

当sli被破坏时,可以通过与下游系统(如PagerDuty、ProdMon)集成来处理它们,或者通过自动化端点向SRE团队发出警报。

最好的部分是什么?使用Grafana可以跟踪的sli的数量没有限制。Grafana的一些大客户监视数千个应用程序,这转化为在它们的环境中跟踪数万个sli。

建立有效的slo和sli是您希望为您的组织带来的最佳实践,以确保系统的正常运行时间而不耗尽您的团队。Grafana使建立和监控这些指标的过程变得无缝。

要请求Grafana Enterprise的演示,请单击在这里.或者注册免费的Grafana Cloud试用版,点击这里了解更多