这是存档的文档v9.0。去最新版本

;最佳实践;仪表板管理成熟度模型

仪表板管理成熟度模型

仪表板管理成熟度是指生态系统设计良好的和有效的仪表板。我们建议定期检查仪表板设置来衡量你在哪里以及如何改善。

一般来说,仪表板成熟度可以被定义为低,中等或高。

为这个话题的内容是2019年从KubeCon说话万无一失的睡眠不足的Oncalls Kubernetes仪表板

低收入默认状态

在这个阶段,你没有连贯的仪表板管理策略。几乎所有人都从这里开始。

你怎么能告诉你在这里吗?

  • 每个人都可以修改您的仪表板。
  • 大量的复制仪表板,没有仪表板重用。
  • 一次性的仪表板,永远徘徊。
  • 没有版本控制(版本控制仪表板JSON)。
  • 大量的浏览仪表板,寻找正确的仪表板。这意味着大量的浪费时间试图找到你所需要的仪表板。
  • 没有任何警报直接你正确的仪表板。

中期有条不紊的仪表盘

在这个阶段,你开始管理仪表板使用有条不紊的仪表板。你可能已经制定了一个策略,但有些事情你可以改善。

你怎么能告诉你在这里吗?

  • 通过使用模板变量防止蔓延。例如,您不需要为每个节点独立的仪表板,您可以使用查询变量。更好的是,您也可以使数据源模板变量,所以你可以重用相同的指示板在不同的集群和监控后端。

    引用的列表变量的例子如果你想要一些想法。

  • 根据一个有条不紊的仪表板可观测性策略

  • 分层的仪表板和向下钻取到下一水平。

    使用的例子向下钻取
    使用的例子向下钻取
  • 仪表板设计反映出服务层次结构。下面所示的示例使用红色的方法(请求和错误率在左边,右边的延迟时间)和每服务一行。行顺序反映了数据流。

    一个服务层次结构的例子
    一个服务层次结构的例子
  • 比较喜欢像:分裂服务指示板大小不同。确保聚合指标不会淹没了重要的信息。

  • 表达有意义使用颜色和正常化轴的图表,你可以。

    • 的例子有意义的颜色:蓝色意味着它很好,红色意味着它是不好的。阈值可以帮助。
    • 轴正常化的例子:当CPU使用率比较,测量由百分比而不是原始号码,因为机器可以有不同数量的核心。正常化CPU使用内核的数量减少认知负荷,因为观众可以相信在100%所有核心使用,而无需知道的CPU数量。
  • 直接浏览减少了“猜测”。

    • 模板变量很难“浏览”随机或漫无目的。
    • 最应该与仪表板警报。
    • 浏览链接。有关更多信息,请参考管理仪表板的链接
  • 版本控制仪表板JSON。

高——优化使用

在这个阶段,你的仪表盘管理优化使用一致的和深思熟虑的策略。它需要维修,但结果是值得的。

  • 积极降低扩张。
    • 定期审查现有的仪表板,以确保他们仍然是适用的。
    • 只有通过仪表板添加到主仪表盘列表。
    • 跟踪仪表板使用。如果你是一个企业用户,您可以利用使用的见解
  • 通过设计的一致性。
  • 使用脚本库生成指示板,确保一致性在模式和风格。
    • grafonnet (Jsonnet)
    • grafanalib (Python)
  • 没有在浏览器中编辑。仪表板观众与变量改变意见。
  • 浏览仪表板是例外,而不是规律。
  • 执行实验和测试在一个单独的Grafana实例为目的,而不是你的生产实例。当一个仪表板在测试环境中被证明是有用的,然后添加,仪表板主要Grafana实例。