成功/贸易服务台

从自制到托管:贸易台如何通过Grafana Cloud迁移到现代监控系统

当Patrick O 'Brien面试成为The Trade Desk™的站点可靠性工程师时,很明显,将公司的监控系统提升到下一个级别是当务之急。

两年多前加入The Trade Desk的奥布莱恩说:“我采访的大部分内容都是关于The Trade Desk之前的监控系统以及如何扩展该系统。”“我有一个良好的感觉,这将是一个早期的任务。”

“这是我们基础设施的一个领域,我立即发现需要付出额外的努力来解决,”卡尔·约翰逊补充道,他比奥布莱恩早六个月加入工程部,担任基础设施和SRE总监。“帕特里克被聘用时,就把这作为他的核心目标之一。”

我们不仅跟踪Grafana的传统技术和工程指标。我们还提供了各种业务团队急需的操作数据,以了解业务的日常运行状况。

-卡尔·约翰逊,贸易部门基础设施和SRE主管

理由很充分。Trade Desk是一家软件即服务公司,作为一个需求端平台运行,代表广告商和他们在互联网上所有形式的数字媒体(传统显示、移动、音频、连接电视)上运行广告的能力。自2009年成立以来,The Trade Desk已经成长为一家拥有1100多名员工、市值88.9亿美元的上市公司。

为了保持它的巨大成功,“我们有一个在物理数据中心和云计算中运行的全球基础设施,”约翰逊说。“我们的业务规模非常大,处理的请求速率通常以每秒数百万计。”

此前,The Trade Desk“为我们监控系统的存储层托管一切,”奥布莱恩说。“我们的所有主机都直接指向各种EC2实例,我们对磁盘存储层有很高的要求。”

Johnson补充道:“The Trade Desk之前使用的自主、自我管理和托管的存储系统是非常劳动密集型的,很难扩展。”“通常情况下,单个节点会耗尽存储空间,或者由于该技术的单线程特性,会过载。开发人员和公司的人只是对完成查询的不可靠性或缺少指标感到恼怒和烦恼。”

奥布莱恩说:“事情经常会发生故障,所以我们的旧系统需要很多人手。”他的目标是通过使贸易台的监控“更容易、更可靠、更快和更便宜”来缓解这种情况。

打开消防软管

O 'Brien花了大量时间研究开源替代方案,也研究了其他SaaS提供商的后端托管。但在这个bob电竞频道过程的早期,格拉夫纳实验室就引起了他的注意。

Trade Desk已经在使用Grafana进行数据可视化,因为“我们的监控需要灵活的可视化,不仅对Trade Desk的所有工程师,而且对我们整个公司都可用,”Johnson说。“我们不仅跟踪Grafana的传统技术和工程指标。我们还提供各种业务团队急需的运营数据,以了解业务的日常健康状况。”

Johnson说:“Grafana让我们能够灵活地管理这些可视化——无论是一个技术项目的单个工作人员的范围,还是整个公司都习惯定期查看的Grafana仪表盘。”

O 'Brien在会议中熟悉Grafana Labsbob电竞频道,知道它通过Grafana Cloud提供后端存储,这是一个完全管理的SaaS指标平台。

奥布莱恩承认:“我有点担心他们是否能够处理我们发送和查询的大量数据。”他毫不掩饰自己的犹豫。

O 'Brien说,作为试验,Grafana实验室团队同意“让我们打开消防软bob电竞频道管”一周。“这是他们允许我们做的一个非常有吸引力的POC。”

Grafbob电竞频道ana Labs团队协助建立了一个环境,在这个环境中,Trade Desk可以将初始的度量流分成两个不同的流——一个在内部,一个到Grafana Cloud。O 'Brien补充道:“我们在一些代码库中发现了大量需要调整的地方,Grafana Labs的每个人都非常高兴能够帮助我们完成这一工作,并承诺做出改变,以帮助我们继续进行POC。”bob电竞频道

Grafana Cloud的好处几乎是立竿见影的。“查询时间立刻得到了改善,许多开发者似乎都注意到了这一点。此外,我们的可靠性也提高了不少,”奥布莱恩说。

今天,“我们没有存储节点,这是堆栈中最昂贵的部分,”O 'Brien说。“现在我们只有三个节点,所有信息都反馈到Grafana实验室。”bob电竞频道

迁移不仅为公司节省了资金,而且还为工程部门省去了令人头疼的故障排除工作。Johnson说道:“当我们使用托管平台时,指标使用受挫感几乎在一夜之间得到了改善。“我们之所以知道它是成功的,是因为内部的抱怨和挫折停止了。”

出乎他们意料的是,赞美之声开始涌来。奥布莱恩说:“最初在The Trade Desk建立我们监控堆栈的人给我发信息,只是告诉我现在一切都快了很多,他对此感到非常高兴。”

“他花了很多时间管理这个系统,”约翰逊补充道。“如果我们继续沿着这条路走下去,把节省下来的时间加起来,我认为大部分的投资回报率都来自于时间和劳动力的节省。我们都可以说,曾经的时间接收器完全从我们的雷达上消失了。”

查询时间立即得到了改善,许多开发人员似乎注意到了这一点。此外,我们的可靠性提高了很多。

- Patrick O 'Brien,贸易部SRE

交易部有一堆新东西

现在工程师们不再需要专注于故障排除,他们可以专注于搭建The Trade Desk的监控平台。

Johnson解释道:“通过释放我们的项目负荷和人员,我们可以考虑提高标准,积极主动地实施下一代监控、指标和警报系统,而不是仅仅维持已经存在多年的相同系统。”

有了新的可用资源,O 'Brien在去年重新调整了团队的工作重点,将公司的堆栈精简为一个更现代化的系统。“2018年是普罗米修斯年,”奥布莱恩说。

O 'Brien说道:“我们的目标之一便是能够更轻松地提升参数和警报。“在Prometheus中,仪表板的查询语言本质上就是警报的查询语言,这很好。在普罗米修斯警报中嵌入大量背景和有用信息非常容易,这对我们来说非常重要,因为我们必须在旧系统中想出一些聪明的解决方案来丰富警报本身。”bob彩票中奖计划

就在the Trade Desk决定与Prometheus合作的时候,O 'Brien在阿姆斯特丹的GrafanaCon与Grafana实验室团队会面,讨论了“关于我们未来的一bob电竞频道个大问题:我们如何处理指标的长期存储?”

bob电竞频道Grafana Labs首席执行官Raj Dutt向O 'Brien透露,Grafana Cloud将很快能够支持普罗米修斯度量的后端存储。

巧合的是,The Trade Desk项目恰逢Grafana Cloud在2018年推出原生的Prometheus集成,因此两家公司再次合作——但这一次的合作“双方都有障碍,”奥布莱恩说。

O 'Brien表bob电竞频道示,从Grafana实验室的角度来看,“我们每秒发送的数据是Cortex后端所见过的最多的。”“我们送去Grafana实验室的消防软管给产品副总裁Tom Wilkie带来了很大的压力,我们可能因此耽误了他一年的时间!”bob电竞频道

从The Trade Desk的角度来看,他们在努力解决一个经常困扰新公司的常见问题:如何围绕一个新堆栈实现流程。O 'Brien说道:“关于如何构造我们的指标,如何编写我们的指标以及如何收集指标,我们需要学习许多经验教训。

奥布莱恩说:“总的来说,贸易研究室和Grafana实验室都在努力帮助对方达到我们的期望。”bob电竞频道“Grafana实验室的工作bob电竞频道人员在长期后端存储之外的许多不同方面都提供了极大的帮助。他们在《普罗米修斯》中也非常有帮助,经常回答问题,讨论和帮助我们解决遇到的bug,或分类问题。”

现在,多亏了Prometheus和Grafana中的模板,所有的警报都必须包含到提供上下文的仪表板的链接,这样“如果30台主机正在对某件事发出警报,那么直接链接到显示这30台主机和过去24小时历史的仪表板就容易得多了,可以查看是否发生了什么怪事,”O 'Brien解释道。“当部署发生时,我们也开始绘制图形,这样我们就有了周围的环境。”

故障排除也变得更加统一,因为The Trade Desk已经能够强制将运行簿链接到每个警报。在过去,“有时运行本会包含一个到Grafana仪表板的链接以获得更多的上下文,有时则不会,”O 'Brien说。“既然每个警报都需要链接运行本,我们就可以更好地执行书面警报,这对每个人都有帮助。”

打造一个快乐的团队

当团队继续致力于淘汰旧的堆栈并迭代新的堆栈时,Grafana Cloud迁移的最大收获是提高了工程团队的效率——和兴奋感。

“我们的工程师过去花太多时间扑灭由遗留平台引起的火灾。这是一个巨大的胜利,让每个人的时间都回来了,”奥布莱恩说。

“我想说的是,成功的一个指标是,我听到许多人说,‘我们正在开发普罗米修斯’,并给出了一个概述,而他们的反应是,‘这真的很酷!’我觉得你不经常听到这样的话,尤其是在基础设施团队中,”奥布莱恩补充道。

“很难取悦工程师,”约翰逊说,“而我们的工程师一直都很满意。”

“我必须要对the Trade Desk的所有工程师们表示感谢,是他们努力让一切顺利进行。这需要一个村子,总的来说,每个人都对我们前进的方向感到兴奋,”奥布莱恩说。“人们真的注意到了性能的提高,在不刺激的情况下让人们告诉你某些东西有所改善,这是一个很好的获胜指标。”

行业
到场

公司规模
1750 +员工

总部
文图拉,加利福尼亚州,美国

bob手机app官网产品/项目使用

79bob官方下载

普罗米修斯

Grafana云