博客/社区

贸易台:我们从本土监控到普罗米修斯的经验教训

2019年4月24日 3分钟

贸易服务台为在线广告的买家提供自助服务、基于云的平台。自2009年成立以来,TTD已发展成为一家拥有900多名员工,市值88.9亿美元的上市公司。

该公司最近从基于Nagios、Graphite和一些自主开发的软件的老式监控系统,转向了基于Prometheus的更标准的监控系统。帕特里克·奥布莱恩在GrafanaCon上做了一个演讲关于他们在普罗米修斯每秒处理1100万个请求的过程中学到的经验。

1.考虑一下你的(硬)提醒。

当将传统警报系统中定义的警报迁移到新系统中时,O 'Brien说,“90%的警报将非常容易迁移。剩下的10%将是困难的。”O 'Brien的建议是:花时间弄清楚哪些在新系统中仍然有用,以及如何实际迁移它们。“通常情况下,特别是来自Nagios,我们会有Python脚本在一个脚本中做许多不同的事情,以确定是否有问题,”他说。“这些是最难的部分,也是项目中最长的部分。”

2.普罗米修斯文件是临床的。

“我很高兴现在听到我们可以提供更好的文件,”奥布莱恩说。“当你开始研究Prometheus时,你会遇到很多PromQL问题,所以最好尽可能成为这方面的专家。”

3.做数学。

“我们很快就遇到了基数问题,因为我们有很多宿主,”O 'Brien解释道。用户被告知要使指标名称具有通用性,并且不要在其中嵌入任何元数据,而是添加标签。他说:“我们在30秒内就在一个命名空间中达到了200万个指标。“这太可怕了,非常痛苦……所以也许可以在这个指标名称中嵌入一些元数据。”

4.找几个内部的福音传道者。

O 'Brien向一位TTD工程师Nathan喊话,他“认识的开发人员比我多,所以他能够与他们一起工作,用代码向他们展示它是如何工作的,向他们展示好处,并且能够比我接触到更多的人。太棒了。”

5.创建一个专门的团队。

“关于如何做一件事的意见越多越好,”他说。

6.参与社区活动。

“这一点不言自明,”奥布莱恩说。“你对产品了解得更多,对项目了解得更多,你就能帮助其他人。”

更多信息来自GrafanaCon 2019,查看所有关于YouTube