这是存档文档v9.0.去最新版本

;最佳实践;仪表板管理成熟度模型

仪表板管理成熟度模型

仪表板管理成熟度指的是你的仪表盘生态系统设计得有多好,效率有多高。我们建议定期检查您的仪表板设置,以评估您的情况以及如何改进。

一般来说,仪表板成熟度可以定义为低、中或高。

本主题的大部分内容来自KubeCon 2019演讲防傻瓜Kubernetes仪表盘睡眠不足来电

低默认状态

在这个阶段,您还没有一致的仪表板管理策略。几乎所有人都是从这里开始的。

你怎么知道你在这里?

  • 每个人都可以修改自己的仪表板。
  • 大量复制的仪表板,很少或没有仪表板重用。
  • 一次性的仪表盘会永远挂在那里。
  • 没有版本控制(版本控制中的仪表板JSON)。
  • 大量浏览仪表板,寻找正确的仪表板。这意味着要浪费大量时间寻找所需的仪表板。
  • 没有任何提醒来引导您到正确的仪表盘。

中等-有条理的仪表盘

在这个阶段,您将开始使用系统的仪表板管理您的仪表板使用。你可能已经制定了一个策略,但还有一些地方你可以改进。

你怎么知道你在这里?

  • 通过使用模板变量防止蔓延。例如,您不需要为每个节点设置单独的仪表板,您可以使用查询变量。更好的是,您还可以将数据源设置为模板变量,这样您就可以跨不同的集群重用相同的指示板并监视后端。

    参考清单变量的例子如果你想知道些什么。

  • 系统的仪表盘根据可观测性策略

  • 具有下钻到下一层的层次化仪表盘。

    使用下钻的示例
    使用下钻的示例
  • 仪表板设计反映了服务层次结构。下面显示的示例使用RED方法(左边是请求和错误率,右边是延迟时间),每个服务一行。行顺序反映数据流。

    服务层次结构的示例
    服务层次结构的示例
  • 比较同类:当大小不同时拆分服务仪表板。确保聚合指标不会淹没重要信息。

  • 使用有意义的颜色和标准化轴来表达图表。

    • 有意义的颜色的例子:蓝色意味着好,红色意味着坏。阈值我能帮上忙。
    • 标准化轴的示例:在比较CPU使用情况时,使用百分比而不是原始数字来度量,因为计算机可能具有不同数量的核。通过内核数量规范化CPU使用可以减少认知负载,因为查看者可以相信所有内核都在被使用,而不必知道CPU的数量。
  • 定向浏览减少了“猜测”。

    • 模板变量使随机或无目的地“只是浏览”变得更加困难。
    • 大多数仪表板应该通过警报链接。
    • 浏览是由链接引导的。有关更多信息,请参见管理仪表板链接
  • 版本控制的仪表板JSON。

高度优化的使用

在此阶段,您已经使用一致且深思熟虑的策略优化了仪表板管理的使用。它需要维护,但结果是值得的。

  • 积极减少扩张。
    • 定期检查现有的仪表板,以确保它们仍然是相关的。
    • 只将经过批准的仪表盘添加到主仪表盘列表中。
    • 跟踪仪表板的使用情况。如果您是企业用户,您可以利用使用的见解
  • 一致性的设计。
  • 使用脚本库生成仪表板,确保模式和样式的一致性。
    • grafonnet (Jsonnet)
    • grafanalib (Python)
  • 不需要在浏览器中进行编辑。仪表板查看器通过变量改变视图。
  • 浏览仪表板是例外,而不是规则。
  • 在专门用于该目的的单独Grafana实例中执行实验和测试,而不是在您的生产实例中。当测试环境中的指示板被证明有用时,将该指示板添加到您的主Grafana实例中。