成功/ Adform

Adform如何使用Grafana将1300个不同的数据源转换为一个中央可观察性系统

科技充满了源于卑微起点的故事。从惠普(Hewlett Packard)和亚马逊(Amazon)(车库)到Facebook(宿舍),灵感和创新可以发生在任何地方。

2002年,三个人挤在哥本哈根的一间地下室里,一心要改变数字广告买家和卖家的工作方式:我们怎样才能让这个过程变得更好?他们的回答是Adform这是一个广告技术平台25000个客户在世界各地。

Adform所有面向消费者的可用性和荣誉——比如在高德纳的魔力象限和用户体验红点奖——都意味着他们的开发和运营团队在幕后不断创新的大量努力。正如Adform营销高级副总裁路易斯•克劳斯特所说:“打造一个先进的广告技术平台确实是一个复杂的过程。”

这促使Adform的DevOps团队重新评估他们的可观察性解决方案,并努力解决公司成立时的同一个问题:我们如何使这个过程更好?bob彩票中奖计划

在多年的启动模式下,开发人员根据个人喜好和过去的经验来挑选工具,现在是时候后退一步,将不同的、杂乱无章的可观察性策略重组为集中的、内聚的方法了。Adform的DevOps技术主管Linas Daneliukas表示:“我们希望将监控作为一种服务建bob手机app官网立在我们信任的产品上。

他们相信Grafana可以帮助他们实现这一目标。通过充分利用Grafana的开放和可组合平台,并将其与Prometheus相结合,Adform的开发人员能够保持他们使用的工具的灵活性,同时允许DevOps团队在组织内提供集中的监控体验。今天,Adform在Grafana中运行着1400多个仪表板,连接了来自86个组织的1300多个数据源和近200个活跃用户。

Daneliukas说:“作为运营商,我们可以控制实例本身,但是团队可以控制他们自己较小的空间,并且可以根据他们认为合适的方式发展。”开发人员得到了他们需要的控制,同时仍然有一个人可以管理整个实例。所以这对我们和他们来说是双赢的。”

Adform新的可观察性口号:一个中央系统

DevOps服务交付经理Tomas dabaininskas说,在Adform的早期,开发人员“使用他们知道的或他们认为好的东西”。

但随着公司的成熟和更多团队的创建,这种不连接的生态系统导致了入职困难、报告挑战和基础设施的低效率,当涉及到维护和改进时。任何优化现有解决方案的梦想都在面对不断的故障排除和临时问题解决的现实bob彩票中奖计划时结束了。Daneliukas说:“我们甚至无法保持更新。”

在2018年左右,DevOps团队改变了他们的方法。“作为一家公司,我们决定转向集中服务,”dabaininskas补充道。

第一个重点是创建作为服务解决方案的监视。最初,他们尝试使用现有的软件,如Graphite、Nagios、Zadig、Graylog、ELK Stack和多个Prometheus实例。

我们试图巩固和选择我们可以进一步开发的工具。然而,我们将自己视为一家现代公司,并希望看到最佳实践是什么以及正在出现什么。因此,我们决定放弃所有关于可观察性的东西,创建一个中央统一的系统,全部由Grafana驱动。

Linas Daneliukas, Adform的Devops技术主管

然而,移民并非没有挑战。改变,一如既往,是困难的,特别是当它包括人们修改他们的过程。但是Grafana管理大量数据源的能力允许Adform通过使用Grafana作为堆栈的核心部分,慢慢地将他们的团队转移到普罗米修斯。dabaininskas说:“我们知道开发者很难立即转移到普罗米修斯。“但是Grafana支持从Graphite到Prometheus的选择,以及其他选择允许在这个过渡时期(开发者仍然可以使用他们喜欢的工具)。”

这项工作是值得的。Grafana不仅汇集了数据,也汇集了团队——即使他们对可观察性工具的看法不一致。与Grafana组织在Adform的Grafana实例中,DevOps团队为Adform中的每个组织提供了自己的独立监控体验,这使得该解决方案比管理多个实例更划算、更精简。然后,用户将拥有所有其他组织的数据的查看权限,同时保持对自己组织的管理访问权限。

Daneliukas说道:“这是一种将我们的团队分开的好方法,但同时也让他们能够看到彼此的仪表盘和可视化内容。“它也不会在整个过程中设置路障。我们不想创建一个我们不得不弃用的解决方案。我们将工具的工作标准提高了很多,这样我们就不会在5年或10年后陷入困境。”

Grafana的开源根源和不断增长的全球社区也符合Adform的标准。如果开发者被一个问题困住了,Grafana的在线社区已经成为保持同步优化堆栈的主要资源。“所有问题都是通过社区论坛解决的,”Daneliukas说。在活跃社区的帮助下,“我们从来没有被困住的问题。一切都很简单。我们不会因为Grafana而遇到障碍。”

可以在Adform办公室的电视上看到的Grafana仪表盘之一。

相反,他们总是有一个新特性和功能的路线图来期待。

选择Grafana对我们来说是不需要考虑的事情,因为我们看到这个工具有一个未来,它的背后有一个社区。它在不断发展。这是最简单也是最好的办法。

Linas Daneliukas, Adform的Devops技术主管

格拉芙娜的胜利清单

拥有一个跨环境的可视化工具,同时仍然维护多个数据源,这是Adform的DevOps团队将他们的开发人员从犹豫的参与者转变为Grafana的高级用户的关键。

“最大的影响是人们可以找到他们想要的东西,”Daneliukas说。“当我们使用不同的工具,并发出警报时,很难知道该联系谁,在哪里找到仪表盘。然后你需要监控系统的证书,而你并不总是有。你基本上对正在发生的大多数事情都视而不见。现在,有了中央监控系统,当你在公司的任何地方看到警报时,你可以点击警报并访问。您可以转到他们的组织并查看相应的仪表板。数据就在你面前。”

这种透明度-由内置的支持来辅助格拉夫纳的普罗米修斯警报管理器-促进Adform团队之间的交流和交叉合作。“现在一切都简化了,”Daneliukas继续说。“可以肯定的是,当您和开发团队谈论监视时,你们使用的是同一种语言。你知道Grafana是我们可视化度量的地方,而Prometheus是我们用来收集度量的工具。你不会花一个小时和某人交谈,试图解决一个问题,结果发现他们使用的是自己的监控解决方案,这就是为什么似乎什么都没有加起来。”

合并还意味着运营效率。最初,开发团队平均每个团队和每个月有1-3名全职员工(fte)负责基础设施维护和监控。在25个团队中,加起来每个月有75个专职人员忙于维护而不是创新。现在,这个数字下降到每支球队1个全职教练。该团队还提供更好的全面维护,确保使用最新版本的软件。

走在办公室里,你会看到电视屏幕上到处都是Grafana的仪表盘。人们不断地提到它们。最后,有了Grafana,故障排除的容易程度成倍增加,同时我们能够将监视堆栈的CPU使用减少50%。

Linas Daneliukas, Adform的Devops技术主管

Adform流向未来

dabaininskas表示,随着公司规模的不断扩大,Adform希望通过其他方式来提高对Grafana的使用,他提到了Grafana Alerting。他说:“我们肯定会对它进行测试,因为对我们来说,它将为我们提供两个最好的世界,以Prometheus格式作为代码管理我们的警报,同时能够通过Grafana UI以用户友好的方式查看和管理所有的警报。”

为了让Adform的“可观察性变得非常简单”,该团队最近成功地运行了PoCGrafana洛基在公司范围内的黑客马拉松中,团队收集了3000多台洛基虚拟机的所有日志。Daneliukas说:“我们想在一夜之间实现一切,而且成功了!”“我们有一个Loki实例,它从每个虚拟机收集操作系统级别的日志。你可以打开一个仪表盘,选择你的机器,抓取你的日志。这太令人吃惊了。现在我们已经把它写进了实施的路线图。”

Adform DevOps团队也在考虑进行PoCGrafana米密尔在不断增长的Grafana堆栈中继续构建易于使用的可观察性体验。

我们喜欢无缝、统一的体验。我们的开发者也希望如此。我们从未决定在Grafana的基础上建造一切。这是自然发生的。我们并不喜欢《Grafana》,但它却一次又一次地出现在榜单的前列。

Linas Daneliukas, Adform的Devops技术主管

在添加跟踪之前,最初的努力是将监视作为服务提供,后来自然演变为将日志作为服务包含进来。很快,Daneliukas和dabaininskas就可以实现将可观察性作为一种服务的最终愿景。

随着业务和技术的不断兴衰,Daneliukas和dabaininskas开始思考如何让Adform的团队实现公司的目标。“我们想让我们的开发团队的生活尽可能简单,这样他们就可以专注于成功构建面向客户的应用程序的日常工作,”dabaininskas说。“他们需要有正确的工具。通过我们提供监控和日志作为一种服务,他们可以专注于重要的事情。”

行业
软件与技术

公司规模
650名员工

总部
成了哥本哈根,丹麦

1300

数据源连接到Grafana


50%

通过将监控堆栈集中在Grafana上,减少了CPU的使用


66%

减少用于基础设施维护和监测的全职工作时间