博客/社区

使用Grafana Cloud减少MTTR和跟踪sla

2022年1月10日4分钟

如今,吸引和留住顶尖开发人才是许多公司的首要任务,包括定位技术公司TomTom.作为世界上最大的开发人员社区的建设者和数千名开发人员的雇主,TomTom一直在寻找开发人员友好的工具,以帮助他们的员工感到富有成效,高效和鼓舞人心。

在他最近的ObservabilityCon 2021说,“TomTom是如何通过使用Grafana Cloud构建以可观察性为中心的文化来改善开发者体验的网站可靠性工程师Carl Meert分享了TomTom的开发团队如何从实现Grafana云,从减少MTTR到通过基于Grafana仪表板的知识分享会议来培养友谊。

用Grafana Cloud减少MTTR

TomTom通过api和sdk提供19万亿路由和位置数据点,建立了庞大的开发者社区。开发、维护和部署这些API端点对于TomTom的开发人员来说是一项艰巨的工作。他们得到Meert的SRE团队的支持,该团队的任务是为这些开发人员提供可观察性和可靠性专业知识。

几年前,该团队正在寻找减少MTTR的方法。当时,他们无法全面了解他们的服务状态。Meert说:“不同的工程团队对自己的服务有一些看法,但这些看法是不可共享的。“一些团队使用了普罗米修斯在美国,其他国家使用不同的监控工具,而且这些工具经常相互冲突。这实际上是个大问题。”

他们的第一步是提高能见度?介绍Grafana云以管理可视化他们所有的各种业务指标。Meert说:“将所有这些不同的数据源整合到一个仪表板中并不需要花费太多时间和精力。”“从问题陈述到我们的第一个业务仪表盘启动并运行只用了两周时间。”该仪表板提供了业务服务的端到端视图,并协助处理事件和跟踪sla。

上图:TomTom业务仪表板跟踪sla、黑盒监视指标和服务状态。

增加与仪表板的协作

有了业务仪表板之后,TomTom团队决定引入每周的技术操作评审。这些会议定期将团队聚集在一起,讨论各种客户体验指标,并使用Grafana作为分析性能的出发点。

上图:TomTom技术运营审查仪表板可视化客户体验指标,并映射服务的正常行为,以帮助识别异常情况。

Meert说,这对TomTom的工程师来说是一个巨大的好处。他说:“他们知道什么是他们服务的正常行为,如果有任何异常,他们可以深入研究并讨论。”工程师们互相帮助,这是一个分享知识的机会。由于仪表板都是在Grafana Cloud上构建的,所以它们是可共享的。

实现全面可见性的综合监控

在实现Grafana Cloud后不久,Meert的团队开始进行调查综合监测.“在TomTom,我们使用9种不同的工具。不是每个人都能使用这些工具,所以我们可以在那里提高知名度。”开发团队现在正在利用Grafana Cloud的综合监控功能,从将指标嵌入到现有的Grafana仪表板到配置Grafana作为代码

随着Grafana Cloud帮助跟踪sla,减少MTTR,并在TomTom培养以可观察性为中心的文化,Meert已经开始期待接下来的事情了。除了将他们的用例扩展到事件响应中,“我们还在分布式跟踪方面做了很多工作,并构建了将数据引入的概念证明Grafana节奏Meert说。

毫无疑问,未来还会有更多的功能需要考虑:“我们看到常规功能一直在出现,这对我们来说是一个惊喜和良好的体验。”

了解更多关于TomTom的每周技术运营审查,并通过查看他们的仪表板全程观看.我们在ObservabilityCON 2021的所有课程现在都可以使用对需求

有兴趣了解更多关于Grafana Cloud?我们有一个慷慨的永远免费层和计划为每个用例-现在就报名