这是存档文档v9.0.去最新版本

;最佳实践;常见的可观测性策略

常见的可观测性策略

当您有很多东西要监控时,比如服务器群,您需要一个策略来决定哪些东西重要到需要监控。本页描述了几种常用的选择监视对象的方法。

逻辑策略允许您更容易地制作统一的仪表板和扩展可观察性平台。

使用指南

  • USE方法告诉你你的机器有多开心,RED方法告诉你你的用户有多开心。
  • 使用问题原因报告。
  • RED报告用户体验,更可能报告问题症状。
  • 警报的最佳实践是针对症状而不是原因发出警报,因此警报应该在RED仪表板上进行。

使用方法

USE代表:

  • 利用- - - - - -资源繁忙的百分比时间,例如节点CPU占用率
  • 饱和,资源必须完成的工作量,通常是队列长度或节点负载
  • 错误- - - - - -错误事件计数

该方法最适用于基础设施中的硬件资源,如CPU、内存和网络设备。有关更多信息,请参阅使用方法

红色法

红色代表:

  • 率,每秒请求数
  • 错误- - - - - -失败的请求数
  • 时间- - - - - -这些请求所花费的时间,延迟测量的分布

这种方法最适用于服务,尤其是微服务环境。对于您的每个服务,检查代码以公开每个组件的这些指标。红色仪表板很适合用于警报和sla。一个设计良好的红色仪表盘是用户体验的代表。

要了解更多信息,请参阅Tom Wilkie的博客文章RED方法:如何检测您的服务

四个黄金信号

根据谷歌SRE手册,如果你只能衡量面向用户系统的四个指标,那就专注于这四个。

这种方法类似于RED方法,但它包含饱和度。

  • 延迟,处理请求所花费的时间
  • 交通,您的系统有多少需求
  • 错误- - - - - -请求失败的比率
  • 饱和,你的系统多“满”啊

这是一个来自Grafana Play的例子