博客/工程

如何快速找到未使用的指标并从Grafana Cloud中获得更多价值

2021年7月2日4分钟

“我希望有一种快速的方法来查看从未添加到仪表板上的基数最高指标。”- - - - - -Steph Timms, Mailchimp的高级系统工程师

随着软件系统的复杂性激增,通过测试这些系统生成的数据量也在激增。这给我们的用户带来了一个问题——尤其是那些在大型企业中负责可观察性团队和可观察性平台的用户。他们必须在成本管理和让团队自由使用任何他们想要的工具之间取得正确的平衡。可观察性领导者通常支持几十个使用数百个仪表板的团队。要以可扩展的方式确定哪个团队关心哪个信号并不容易。

当我们与一些Grafana Cloud用户谈论这个挑战时,我们意识到,如果我们能够回答哪些指标没有被使用的问题,我们就能够给用户一个快速的方法,开始找出哪些指标是重要的。

我们很高兴能分享最近发布的命令集,用于cortex-tools-我们用于交互的命令行工具Grafana云——这生成未使用的指标列表,按基数排名。

命令上下文中未使用的度量(分析命令)目前被定义为一个指标,它是Grafana云存储中的一个活动系列,但在Grafana实例的任何仪表板上都没有显示。

好吧,我们来试试。

开始

这非常容易开始。

  1. 首先,安装cortex-tools,一套功能强大的命令行工具,用于与Cortex交互。
  2. 创建一个Grafana API密钥。
  3. 运行cortextool分析grafana命令,./cortextool分析grafana——address=——key=,以查看在Grafana仪表板中绘制的指标列表。
  4. 运行分析普罗米修斯命令,./cortextool analyze Prometheus——address=https://prometheus-us-central1.grafana.net/api/prom——id=< grafanacloud- instance-id>——key=——log.level=debug,以查看Grafana仪表板中未使用的按基数排序的指标列表。要获得您的Cloud Prometheus查询端点的地址,请在Grafana云门户中导航到Prometheus。

没有显示在Grafana仪表板中的指标是需要删除的主要候选项。我们仍然建议在删除之前与团队和涉众进行检查,但是这个列表应该是考虑您的指标使用情况的一个很好的起点。请记住,用于警报和查询的指标或使用模板变量的仪表板中的指标将被定义为未使用的指标。

有关此功能的详细信息,请查看文档

删除未使用的指标

现在您已经有了一个未使用的指标列表,那么如何将它们从列表中删除呢摄入?假设你看到了metric_a而且metric_b没有在任何Grafana仪表板中使用,并且具有太高的基数,并且您不需要它们。

如果您正在使用Prometheus或Grafana Agent向Grafana Cloud发送指标,则需要修改remote_write配置以防止指标被发送。

这是通过将条目添加到write_relabel_configs在您现有的remote_write配置中。

例如:

remote_write:—url: <您的Cloud Prometheus metrics实例remote_write endpoint> basic_auth: username: <您的Cloud Prometheus实例ID> password: <您的Cloud Prometheus API密钥> write_relabel_configs:—source_labels: [__name__] regex: metric_a|metric_b action: drop

您可以在Grafana Cloud门户的Prometheus卡中找到remote_write URL、用户名和API密钥配置信息。

该规则查找标签值的任何度量__name__metric_ametric_b.的__name__label表示普罗米修斯中公制的名称。该规则使用正则表达式来匹配指标名称,因此可以添加任意数量的指标,前提是使用|管道将它们分开。

就是这样!谢谢你的跟进。我们已经找出了基数未使用的顶级指标,并删除了其中的几个。

接下来是什么

Grafana Cloud可以很容易地开始使用指标、日志、跟踪和仪表板。(如果您还没有使用它,请查看我们的免费和付费的Grafana Cloud计划对于每个用例,和注册免费试用吧)。我们的任务之一就是让你控制你的数据。我们会很高兴收到你的来信在您尝试此功能时。请关注这方面的更多内容,因为我们改进了工具,让您更深入地了解度量、日志和跟踪的使用情况。