博客/社区

Verizon如何通过Grafana实现自动化和自助服务

2019年5月20日9分钟

你现在能监视我们吗?

这是威瑞森开始提出的问题,因为这家《财富》500强公司的投资组合从通信服务扩展到包括雅虎等品牌。赫芬顿邮报。

“我们不仅仅是祖母的座机,”Verizon系统工程经理肖恩·托马斯对观众说GrafanaCon我们不仅仅是你的手机供应商。我们是一家媒体公司。我们有5G解决方案。bob彩票中奖计划我们正在开发技术。我们正在建设未来。”

到2018年底,威瑞森雇佣了14.45万人来做这项工作。“就规模而言,第3届超级碗有7万人参加。这意味着我们在第3届超级碗的两个体育场坐满了人,还有几千人在停车场开派对,”托马斯说。

但负责监控的校队是Verizon系统工程团队,负责监督云工程、分析、ITSM自动化和工具。

帮助领导全栈开发部门的Thomas表示,随着公司的发展,团队努力获得内部系统的全貌,这样他们就可以“从大型企业的角度出发,展望未来”。

当时,有40个服务器为Verizon的所有系统运行分析,如变更管理、可用性管理、变更跟踪和事件管理。这些服务器运行在SSRS环境中,在Windows上使用SQL,因此仅授权成本并不理想。

“效率不高。它没有扩展性,也不现代,做任何事情都是一种痛苦,”托马斯在会议上说GrafanaCon会话.在威瑞森进行内部重组的过程中,“我们遇到的最困难的部分之一是,如果业务部门说,‘嘿,我们要做这个改变。这个系现在叫这个。“当这种情况发生时,你不得不花大力气去修改所有这些报告上的名字。这太疯狂了。”

格拉芙娜来拯救我们

系统工程团队的目标是将所有不同的数据源合并到一个单一的、易于访问的视图中,供最终用户和执行团队使用。

在查看了合适的基础设施之后,自动化工具团队的Verizon工程师Derek Meyer开始研究开放源码选项。“我一直是一个喜欢开源软件的人,”他说,“并努力在我能做的地方做出贡献。”

迈耶开始玩弄格拉夫娜。他解释道:“我打开了自己的游戏网站,并使用了自己的数据。在与其他工程师进行了一些初步试验后,他们决定将Grafana作为公司的指导方针。

在组合一个新的监视模型时,该团队已经建立了基础设施,以运行几个具有复制功能的MySQL数据库,以取代产生许可成本的SQL服务器。他们也安装了一段时间的Linux系统。

“我们将旧模式和新模式进行了比较,然后说,‘哇,这很简单。为什么我们不使用Grafana继续这条路呢?’”迈耶说。

然而,在这条路上有一些障碍。

Meyer说,首先,团队必须弄清楚如何处理遗留的基础设施。“每次你建立预先的东西,它是,‘这是一个请求;给我建一个服务器。’或者‘这是另一个需要安装操作系统的请求。’”

托马斯补充说:“如果你幸运的话,这需要6个月的时间。”

为了提高可伸缩性的便捷性,该团队提出了一个利用容器的混合解决方案。Meyer解释道:“由于其敏感性,我们的许多数据都保留在prem上。

“安全一直是最大的问题,”托马斯说。“这就是我们考虑在全云的基础上进行混合的主要原因……有相当多的敏感数据是安全和治理团队不愿意公开的。”

但是,Meyer说,“我们可以把前端放在混合情景云中,帮助减少时间,同时增加冗余。”

当他们把注意力转移到旧的SSRS服务器上时,工程师们发现有超过50万行用于存储过程(如变更管理和实例)的静态代码。

“代码已经存在很长时间了,要对它进行修改,你真的希望你所做的不会破坏其他东西,”迈耶说。

相反,Verizon团队分解了现有的代码,并在仅5个存储过程中大幅减少到500行动态代码,这要归功于Grafana中的函数。

这50万行存储在200多个不同的存储过程中。很多都是几千行,除了一个变量,其他都是一样的。当你想要尝试改变它时,这是很困难的,”Meyer解释说,“我们现在通过利用Grafana和MySQL,通过五个存储过程来完成所有的更改度量、实例响应和票据跟踪。”

格拉芙娜真的起作用了吗?

随着基础设施的所有这些重大转变,“下一个大问题是,‘这种改变值得吗?’”托马斯说。

数字本身就说明了一切:在实现Grafana之前,Verizon使用的存储过程代码行数多100,000多,存储过程数多4,000多。

“我再三检查了这些百分比,”托马斯说。“这实际上是正确的。”

但Thomas和Meyer总结出了三个主要的改进来阐明他们的观点:

1.更好地利用时间

Grafana最积极的成果之一是在管理和监控公司指标方面节省了大量时间。

当业务部门变更名称、新副总裁加入执行团队或管理层重组时,“一切都会从源数据中动态更新,”托马斯说。“以前为一个人显示信息的仪表板为新人显示信息。我可以自动得到我需要的一切。”

在过去,任何组织的变更都会涉及到多个开发人员,他们需要花费至少30天的时间来完成开发工作。

托马斯说:“储存程序中的每一条都必须更新,每个人都知道这样做会发生什么。”“你漏掉了一行,当然,那是一位副总裁要看的一行。另一位副总裁正在看一个完全不同的仪表盘。这两个数字并不一致,你的首席信息官从两个不同的副总裁那里听到了两个不同的故事。然后猜猜谁在凌晨两点接到电话?”

托马斯说,有了新系统,“把这个过程变成自动化任务,只需要更新500行代码,就可以实现两个(免费)FTE。”“这些开发者并不专注于仪表板。现在,他们可以专注于实际可交付的成果,以及一年中必须完成的所有事情。”

2.授权的最终用户

在Grafana之前,报告是为每个请求手工创建的。“我们收到了数千份报告,彼此非常相似,”迈耶说。“随着时间的推移,它们变得不新鲜了。如果不检查成千上万的仪表盘,你不可能总是知道它们是否都在工作。它背后的自动化非常难以实现。”

另外,因为有各种方法可以查看相同的数据,所以每个开发工作都需要单独的SSRS报告。

“现在它是页面顶部的过滤器,”托马斯说。“高管们不必填写(要求)。他们得到他们需要的数据。这使得他们的运营评估能够更快地整合在一起。一切都在他们的指尖。”

Meyer说,通过这种自助服务的度量模式,“你赋予了终端用户权力。”“从呼叫中心代表到首席信息官,任何人都可以利用这些信息,以自己想要的方式看待它。”

此外,通过Grafana的一些登录功能,“如果将它与LDAP功能绑定,就可以对其进行设置,以便只对特定的人使用特定的报告,”Meyer说。

“它有很大的灵活性,”迈耶补充说,“让生活变得更容易。”

3.火警警报减少

值得庆幸的是,对工程团队来说,不必要的数据费用也减少了。

托马斯说:“我们首先注意到的一件大事是火灾警报减少了。”“当我说火警警报时,我指的是深夜短信、深夜电话,说‘数据有误;这个数据不一致。’”

托马斯也注意到他的收件箱流量减少了很多。“电子邮件数量大幅减少,”他说。“在Verizon这样规模的公司,如果一个仪表盘出了问题,你不会从一个人那里听到。你会收到17封不同的电子邮件,全都来自不同的执行董事或不同的管理团队。”

所有这些因素都为该公司的开发人员提供了更好的生活质量。“我们这里有多少人一天24小时都在工作?或者不得不在凌晨2点起床去修理什么东西?或者你下班了,然后你转身说,‘哦,糟糕,我忘了我需要在早上之前做这件事,’”迈耶说。

梅耶说:“我知道在过去的10年里,我的压力水平和血压都上升了。“现在有了基础设施,我就不必那么担心了。”

关注未来

随着“放下一切”火灾警报的时代已经过去,工程团队现在可以展望未来。

在招募更多的团队使用Grafana的过程中,“我们首先展示了40个授权系统的退役能力,并将其转移到这个单一平台上,”Thomas说。“接下来我们要做的就是营销。我们有云工程团队、网络团队和存储团队,我们看到了Grafana的强大功能。”

随着Thomas的团队从涉及仪表板和度量的开发工作中转移出来,“我们实际上可以完成真正的工作。”

这就需要让Grafana变得更好。“这真的是一个单一的玻璃解决方案。有更多的数据源正在定期添加。这是对这些数据源的开源解决方案,”Thomas说。

如果Grafana不能提供Verizon目前需要的解决方案,“也许它今天还不存在,但明天可能会存在,”Thomas说。“我们公司内部有很多人才,如果需要的话,他们当然可以做出贡献,创建这些数据源。”

欲了解更多GrafanaCon 2019,浏览有关讲座YouTube