博客/工程

提醒在合成监测指标的最佳实践Grafana云

2022年3月10日 5分钟

想知道您的应用程序是什么样子的“在”?综合监测可以给你一个全球的概述您的应用程序从客户的角度来看,观察系统和应用程序执行通过模拟用户体验。

一个工具来帮助实现这一目标综合监控应用程序,这是一个黑箱监控解决方案Grafana云。您可以使用综合监测监控你的服务来自世界各地的。从今天开始,我们有探测器在22个位置。我们也支持私人调查从任何你想要的位置运行检查,包括检查运行在安全的网络。

综合监控检查将发送数据到你的Grafana云账户。(没有Grafana云账户?报名今天免费!)从那里,您可以查询、可视化和警报在你的数据,像其他普罗米修斯内部指标,Grafana

合成监测报警更容易

工作与我们的客户,我们意识到有些痛点特定合成监测报警指标。随着时间的推移,我们积累了一些最佳实践设置综合监视警报更容易和更有效。

我们还通过产品改变简化报警指标。我们介绍了一组预定义的警报警报选项卡下的合成监视应用程序,这将帮助您创建警报只需点击一个按钮。更多信息,请参阅我们的综合监控报警文档

在预定义警报的一些最常见的实现,他们为所有用户可能是不够的。对于那些需要扩大他们的提醒,我们也发表了一篇博客文章前5名用户所请求的合成在Grafana云监控警报,其中包括一些流行的警报表达式和更多细节如何创建您自己的自定义警报。

综合监控应用Grafana云:警报选项卡。
综合监控应用Grafana云:警报选项卡。

合成的最佳实践监控警报

这里列出的指导方针来改善你的警报Grafana合成监测应用的云。

注意:合成监测指标是普罗米修斯指标这里列出的一些最佳实践也将适用于一般普罗米修斯报警。

记录规则

  • 创建一个记录规则当您想要创建多个度量不同阈值警报。记录规则将使其易于管理警报,因为你可以避免重复每个预警规则的完整的查询表达式。
  • 记录规则推荐快预警评估上有多个警报时的一个基本指标。
  • 记录规则将生成指标,这些指标将被纳入活跃的系列计费。为了避免记录的规则高基数,使用总和的您正在使用的标签警告,放标签的其他离开的总和。

警报表达式

  • 避免设置短范围在警报表达式。使用一个短程与低频检查警报(例如,120秒)可能导致假警报由于数据缺失或晚。
    • 注意:范围定义了时间(我们的时间从现在往回看)在评估警报。警告中相应地调整范围的表达式。
  • 当报警延时指标,我们建议使用百分位数。
  • 使用由()和警报表达式来减少生成的系列,只在你想要的标签和警告。
    • 合成监控警报,我们建议保留探针标签的由()和而不是提醒个人调查。
  • 使用条款预警规则警报之前等待一段时间被认为是积极的。这可以帮助与拍打瞬时故障警报或警告射击,自我调整(e。旅客:错误由于探测和目标之间的路由)。看到普罗米修斯:了解报警的延迟详细解释的警报的生命周期。
  • 避免报警直接衡量指标(如:probe_success度量)。拍打计会重置持续时间和警报不会火。但是如果你必须使用sum_over_timeavg_over_time查询功能指标的预警规则。阅读更多关于2.0报警仪表在普罗米修斯

在探测报警

  • 不推荐报警探测器级别。探测器级警报可能导致假警报探测和目标之间由于网络问题。你可能会看到间歇性错误在单个探测器探测和目标之间由于网络的问题,你可能会得到提醒,直到周围的网络线路有问题的网络。
  • 使用3种或3种以上的调查在你检查可靠的警报。提醒在检查运行在单个探测器不推荐。
  • 我们建议不过滤个人探测警报表达式。这可能导致不可靠的或拍打警报。

测试警报表达式

  • 使用Grafana探索测试警报表达式。这是一个快速的方法看过去的数据,看看在什么情况下会解雇你的警觉。
  • 你可以看一下警报{}普罗米修斯时间序列,看看哪个警报是活跃的(等待或解雇)或者活跃。

了解更多

我们希望本指南将帮助您创建更好、更有效的提醒你合成监测指标,并避免常见缺陷会导致虚假或拍打警报。

如果你有兴趣了解更多,请查看我们的网络研讨会”介绍合成监测”,你可以免费观看。另外,以下是一些额外的资源值得一看:

如果你有更多问题综合监控警报,请查看Grafana云支持选项

如果你不是已经在使用Grafana云-最简单的方法开始使用可观察性在14天的免费试用注册现在Grafana云无限的度量,日志、痕迹和用户,长期保留和访问一个企业插件。