;最佳实践;常见的可观测性策略

常见的可观测性策略

当您有很多要监视的东西时,比如服务器群,您需要一种策略来决定哪些东西足够重要需要监视。本页描述了选择监视对象的几种常用方法。

逻辑策略允许您制作统一的仪表板,并更容易地扩展您的可观察性平台。

使用指南

  • USE方法告诉你你的机器有多开心,RED方法告诉你你的用户有多开心。
  • 使用问题原因报告。
  • RED报告用户体验,更有可能报告问题的症状。
  • 警报的最佳实践是针对症状而不是原因进行警报,因此警报应该在RED仪表板上进行。

使用方法

使用代表:

  • 利用- - - - - -资源繁忙时间百分比,如节点CPU使用率
  • 饱和,资源必须做的工作量,通常是队列长度或节点负载
  • 错误- - - - - -错误事件计数

这种方法最适合基础设施中的硬件资源,如CPU、内存和网络设备。有关更多信息,请参见使用方法

红色法

红色代表:

  • 率,每秒请求
  • 错误- - - - - -失败的请求数
  • 时间- - - - - -这些请求花费的时间,延迟测量的分布

这种方法最适用于服务,特别是微服务环境。对于每个服务,对代码进行测试,以便为每个组件公开这些指标。红色仪表板适合用于警报和sla。一个设计良好的红色仪表盘是用户体验的代表。

欲了解更多信息,请参考Tom Wilkie的博客文章RED方法:如何测试您的服务

四个黄金信号

根据谷歌行为手册如果你只能衡量面向用户系统的四个指标,那就关注这四个。

这种方法类似于RED方法,但它包含饱和度。

  • 延迟,处理请求所花费的时间
  • 交通,您的系统有多少需求
  • 错误- - - - - -失败的请求率
  • 饱和,你的身体是多么“饱满”啊

这是来自Grafana Play的一个例子