博客/社区

Kambi如何从内部石墨解决方案迁移到Grafana云

2021年11月26日 4分钟

当你是一个体育博彩技术公司和你意识到你的内部,on-prem石墨解决方案监控指标不再是毫无疑问的事,你会怎么做?这是两难的境地Kambi,快速增长的业务——使用开源技术的激情——大约有500种不同的微观服务生产和大约200000每秒传入数据消息。

在一个演示ObservabilityCON 2021,Kambi网站可靠性工程师弗兰克Stengard讲述的故事,他的公司超越石墨,创建了一个名为Hadrianus的小型开源石墨防火墙工具(著名的皇帝的名字命名)来处理一些棘手的问题,并成功地迁移到“一个可怕的数据量”Grafana云

过去的问题

Stengard开始勾勒出了石墨的“相当标准”设置,Kambi历史上使用。它是基于Python,大约500服务喂养成一个HAProxy划分六个实例之间的负载carbon-relay (CPU的数量选择稳定性目的)。Carbon-relay节点然后转发到carbon-cache节点存储实际数据为耳语文件。

一段时间后,问题开始出现。不仅是Kambi指标下降,但他们的磁盘空间,CPU,甚至一点的内存被耗尽。“我基本上不能登录到carbon-cache节点有时因为他们不够敏感,”他说。

甚至用“碳取代carbon-cash之后,大部分的问题依然,并加入了一些新的,包括自己的磁盘I / O耗尽。的时间和精力把所有启动并运行基本上相当于一个中场的位置。

Stengard在石墨的研究小组发现,许多指标都比他们实际上更频繁的时间间隔发送存储,和度量的值是0或主要是0。

找到一个解决方案

扩展了石墨不是一个选项作为on-prem Kambi运行在数据中心和没有资源。”也,扩大集群典型的石墨没有很长时间,尤其是如果您的集群是负担过重,是困难的,“Stengard说。“我们不能找出最简单的方法在不影响我们的开发团队(50 +)。”

但是他们不能放弃,因为这个问题影响Kambi如何查看其系统和它的环境是如何做的。”As Stengård put it, “The house was burning now. We needed to fix it.”

Kambi创建自己的软件解决方案:Hadrianus,一个开源的“感知应用程序防火墙负载平衡器。”的一个关键特点是它能够反映交通石墨到多个集群和一个允许列表,让关键指标通过即使他们违反Kambi的逻辑。

Hadrianus”最重要的功能,然而,能减少输入指标不符合协议和处理石墨石墨线端点的太快或者在某种程度上是没有意义的。

有了新的软件,Stengard说Kambi实现负载的减少80%。磁盘I / O仍高,但更易于管理。内存利用率仍高,但重要的是,他指出,“事情不是偶然的死因为他们耗尽内存。”

不过,Kambi不断增长——这意味着更多的指标——现有on-prem生成解决方案(虽然一个创可贴解决方案)不够会在未来。

自公司不能规模石墨,Stengard和他的团队决定修改Hadrianus能够一面镜子中的数据副本发送给第三方提供者Grafana云。该公司还想开始使用普罗米修斯代替石墨,他说,因为它有了更为广泛的支持,并且在Kubernetes略好。

Kambi测试Grafana云的指标能力基本上把整个生产数据负载直接Grafana云,以确保他们能处理它——它!

成功与Grafana云

Stengard解释说,Grafana云最终适合Kambi因为它支持石墨,它有一个很好的普罗米修斯的迁移路径,可以逐渐完成的。该公司已经使用Grafana在云中,“所以把它几乎一模一样的用户体验对于我们的开发团队,”他说。他补充说,在未来,Kambi网站可靠性工程团队希望取代现有Elasticsearch解决方案在AWSGrafana洛基

更多地了解Kambi使用Hadrianus Grafana云,查看完整的ObservabilityCON会话。我们所有的会话从ObservabilityCON 2021现在可以在需求。

对学习感兴趣Grafana云吗?现在免费注册看看我们慷慨的永远免费的层和每个用例的计划。


在这一页上