博客/社区

专业技巧:如何降低MTTR,增加正常运行时间和Grafana VictorOps

2019年7月2日4分钟

我们可以筛选海量的数据。警报在预先确定的参数。提供多个提交一天。

但随着组织利用这些分层,复杂的监控系统,“我们也必须开始练习可观测性丰富,我们采取的行动解决问题发生时,驱动持续改进,“VictorOps产品营销经理说梅勒妮Postma

VictorOps是一个工具,可以帮助完成。去年收购了Splunk,VictorOps是一种自动报警系统,得到正确的警告,以正确的人,减少警报疲劳。

GrafanaCon 2019,Postma概述了四个步骤减少使用VictorOps和Grafana MTTR,增加正常运行时间。

利用强大的监控解决方案bob彩票中奖计划

很高兴有一个好的基线的信息和理解组织的基础设施是什么样子当一切都是绿色的,Postma说。“然而,我们人类和我们不抓住一切,”她说。“不可能预测每一个负面影响基础设施…特别是团队每天提交多次。”

当问题出现,“警报真的只有有用,如果他们得到正确的人在正确的时间,“Postma说。“他们不能死在一封电子邮件收件箱”。

进入VictorOps,可用于直接警告的人随叫随到或者专家可以介入并解决这一事件。“我们已经看到这与许多客户的行动,”她指出。“最新的PSCU信用社服务。他们实际上减少了MTTR从四个小时到两分钟和获得大量的责任。”

理解影响部署

“部署是真正了解发生了什么事件,“Postma说。换句话说,“不只是设置和忘记。”

组织比以往任何时候都更快,“生产测试是正常的,”她说。因此,“我们可能会导致这些警报火。”

“我们真的需要观察(部署)如何影响我们的基础设施,然后让这些警报合适的人在合适的时间以减少MTTR,“Postma说。

VictorOps,工程师可以观察部署他们和同龄人,可能会触发警报。“你有一点上下文和数据真的很快地把它的底部,”Postma说。

提供更多的背景

当警报不可避免的发生时,我们的目标是提供最内容和上下文应急人员,这样他们就可以尽快行动。

“一个巨大的减少同时动员和同时决议通过提供最上下文是可能的,”Postma说。

“从Grafana VictorOps吸入警报,但它也允许您添加Grafana图到特定的警报,”Postma说。“所以在3点你可以迅速看一眼指标和开始工作。”

还附加引用如运行手册、注释和Jira门票警报将位置调用成功排除。

“你收到警报时,你是否记得故障诊断三个月前,但你不能记住你做了什么或你是一个第一次调用用户在你的新公司运行手册,注释,Grafana图表帮助大幅减少同时动员和让你一起工作来解决更快。”

数据驱动的改进

系统的可观测性不仅仅是问问题。也是对审查过程和采取行动改善团队将如何