成功/衣冠楚楚的实验室

Dapper Labs如何使用Grafana Cloud来满足全球对nft狂热的需求

2021年3月,数字艺术家毕普尔创作的一张JPEG在佳士得以6900多万美元的价格售出。这次拍卖引发了全球对nft(或不可替代代币)的痴迷,它们代表着数字收藏品、艺术和媒体。在所有的头条新闻中,区块链游戏工作室Dapper Labs脱颖而出。

于2017年由风险投资工作室Axiom Zen, Dapper Labs利用区块链来构建上瘾的游戏,验证真实的数字收藏品,并为体育名人和音乐艺术家运行粉丝代币。该公司的第一款产品CryptoKitties是一个广受欢迎的区块链游戏允许玩家繁殖、交换和收集虚拟猫,它通常被认为是最早将区块链技术用于与nft相关的娱乐活动的尝试之一。

最近,这家基于区块链的初创公司推出了NBA Top Shot,这是一个数字交易卡系统,约有1900万笔交易,通过销售NBA比赛集训产生了超过2.3亿美元的收入。

在被称为“非加密货币狂热”的热潮中,Dapper Labs不得不扩大规模,以满足全球对加密收藏品的需求。这就是Dapper Labs的主要SRE和IT、安全和SRE团队的工程经理Andrew Burian的作用。

“SRE的咒语很简单:如果你不首先具备可观察性,你就没有能力做任何事情,”Burian说。

为此,Burian和他的团队为Dapper实验室建立了一个可观察性堆栈,其中包括Grafana云其核心监控工具是PagerDuty、Prometheus、Kubernetes和谷歌云平台。

他们还为开发人员提供了一套开箱即用的警报,这样当团队编写应用程序时,他们也可以实现左移可观察性,并开始将他们的指标导出到Grafana,并立即监视他们的工作。Burian解释道:“这取决于开发者如何利用警报并确保他们的应用能够正常运行。”“我们只是为他们提供工具、指导和专业知识,让他们把事情做好。”

这是一项不小的任务。到目前为止,Dapper Labs SRE团队监测了超过400万个活动序列,相当于每分钟约1200万个数据点。与Grafana洛基对于日志(每天最多2TB的日志)和Grafana节奏为了追踪,Dapper实验室将所有的可观测性数据通过Grafana Cloud传输。

和格拉芙娜在一起做了很好的选择


布里安说:“我有高层的Grafana仪表盘,它把我们所有不同的系统聚集在一块玻璃上,因为SRE的工作是掌握系统的健康状况。”

为此,多年来,Dapper Labs迅速从使用Grafana OSS发展到使用Grafana Cloud进行应用程序和系统监控。因此,Burian补充道:“Grafana被广泛应用于公司的各个方面。”

我们通过Prometheus完成几乎所有的事情,所以对于长期存储、仪表盘和警报,我们将所有这些都发送到Grafana。Grafana Cloud就在上面,它允许我们提供可用的数据,这样任何产品团队都可以在他们想要的时间和地点使用仪表盘和警告信息。

Andrew Burian, Dapper Labs的IT、安全和SRE团队的主要SRE和工程经理

毕业于Grafana Cloud

Dapper Labs的监控之路始于运行自己的Prometheus实例作为数据存储,并将Grafana作为开源可视化层置于其之上。

“我倾向于支持开源项目,因为我喜欢知道产品在做什么,在哪里,”Burian说。“而且,如果我感到非常沮丧,我可以提交修改。”

然而,在使用Grafana的6到8个月内,数据保存很快成为一个问题。

Burian说:“要花时间仔细管理存储的位置,我们的保留期是多长,并确保Prometheus节点足够强大,这样我们就可以对过去6个月的数据进行查询……这一切都令人头疼。”

为了消除他的团队的操作负担,Burian选择Grafana来运行可视化和处理数据仓库。“我要处理的事情越少越好,”他说。

因为球队已经是Grafana云当Dapper Labs在2020年升级其产品时,从开源迁移到Grafana Cloud的仪表板是一个自然的举动。

“对于v2,我们把新的仪表盘放在Grafana Cloud上,”Burian说。“我们慢慢地摒弃了自助式聚会。我们在自托管的Grafana实例上仍然有一些旧的提醒和仪表板,因为面向消费者的产品的弃用会持续很久。”bob手机app官网

随着Dapper Labs继续扩大规模,“我们与Grafana Cloud的协议逐渐将越来越多的Grafana Stack投入生产,”Burian说,他曾考虑过市场上的其他监控选项,但“它们都被抛到一边了。”特别是因为它们的价格标签是“可笑的”,要价是Grafana Labs产品的三到四倍。bob电竞频道

尽管他们的产品的用户数量增长bob手机app官网了100倍,流量增长了1000倍,活跃系列指标也从20万膨胀到近400万,但Burian表示:“我一直认为价格与我们在Grafana Cloud上的使用量相当。”

他的团队还受益于Grafana节省的时间。由于只有6个人在可观察性吊房中支撑着Dapper实验室的100个工程组织,Grafana Cloud让Burian的团队可以专注于更大的项目,而不必担心每隔几个月就需要进行维护和升级。

布里安说:“对我们来说,任何需要照看孩子的事情都是失去的机会成本。”

积极的解决问题

当Burian和他的团队第一次开始研究可观察性时,“数据很难测量,我们只有一个APM数据和一些CPU使用情况,人们根本不在乎。”Burian说。“在监控发现任何问题之前,我们就会从客户那里得到性能问题报告。”

自从Dapper Labs在2019年实现了其可观察性堆栈以来,“我们的仪器非常好,在谷歌Cloud公开报告故障之前,我们就能捕捉到谷歌Cloud上的故障,”Burian说。

当问题出现时,Grafana将其发送到PagerDuty,后者将向开发人员发送警报。然后开发人员进入Grafana查看是什么触发了警报,使用Grafana学习引擎来评估指标。

通常情况下,开发者知道他们在寻找什么,并很快找到它。我们可以仅用参数调试80%的问题。最后一点,他们深入到日志或我们的错误报告工具的细节中。但通常情况下,如果是缩放问题,可以用一两个Grafana仪表板进行调试。

Andrew Burian, Dapper Labs的IT、安全和SRE团队的主要SRE和工程经理

除了在报警和监控方面更加灵活之外,“对团队的赋权是最好的结果,因为这对我们所做的一切都有影响,”Burian说。“生产力提高了,错误减少了。”

打开编辑的季节

Burian说:“我们的监控和可观察性平台是我们内部开始考虑将其作为自己的产品提供给内部客户的首批系统之一。”“这种心态的力量在于,它让你像思考产品一样思考改进。”

这就是为什么他们的内部Grafana部署是由Dapper社区不断塑造的。在公司内部,“在我们的Grafana用户列表中,编辑肯定比观看者多,”Burian说。

在Dapper实验室的协作环境鼓励更多的眼球和编辑对产品和程序。bob手机app官网Grafana大约有240名活跃用户,包括工程师、项目和产品经理,他们希望深入了解数据。

Burian说:“项目管理、产品管理层和执行层只使用仪表板,但几乎每个工程师都在编辑它们。”“在我们公司,我们真的有一种开放的编辑文化。我们所有产品的Wiki都是一个巨大的协同编辑环境bob手机app官网。没有真正的访问控制。我给每个人全局编辑权限。如果你想调整一个仪表盘,或者你想从那里获得一些东西,你可以直接进入操作系统。”

低激活阈值意味着可以公开邀请参与监控工作。Burian说道:“大多数人都非常热情,我并没有建立任何控制机制去阻止他们向Grafana发送尽可能多的参数,所以他们便充分利用了这一点。”

即使是新员工也会在入职的头两三个月内对监控系统做出有意义的贡献。

“Grafana从一开始就具有视觉上的吸引力,”Burian说。“很难做出一个看起来很糟糕的仪表盘。”因此,布里安表示,Grafana仪表板推动了用户的使用,因为“更多的人会看看起来不错的东西”。

该公司绝大多数的仪表板都以工程为重点,只有少数专门用于公司平台的高级摘要。最近,该团队还开始将SLOs和sli正式纳入仪表板,以跟踪公司全年的目标和进展。

布里安表示:“这在产品经理和高管层获得了一些吸引力。”“我们的目标是拥有一个SLO和一个仪表板,该仪表板描述SLO,并提供支持数据,以便在出现问题时进行验证。”

Dapper Labs的未来是什么

"事情只会从现在开始变得更好"

Burian说:“一开始,当我们第一次插入的时候,低水位机可能在30000系列左右。“但我基本上告诉他们,要把一切都用在体制上,让我们走到现在的地步。”

随着Dapper Labs规模的扩大,该公司对Grafana的使用也在增加。然而,这与初创模式是有区别的——例如,“我们必须以最快的速度构建所有的东西!”——并找出效率在哪里——例如,“让我们谈谈我们的底线吧。”目前,Dapper Labs正在经历这种转变。

“已经有一些工具可以检测哪些系列是绝对无用的。我们将开始砍掉这些,”布里安说。

剩下的是布里安对Dapper实验室可观察性的总体设想。Burian说:“真正的成功在于使用我们的工具和我们的可观察性来定义真正优秀的面向客户的SLOs,做出真正有影响力的警报和监控,并获得我们所需要的,而不只是把自己淹没在数据中。”

随着团队在临时检测方面的改进,他们将学会更有效地导出更多的度量。在未来的几个月和几年里,随着他们的监测使用继续增加,“我们将吸收新的指标,从新的来源获得更多的日志,我们希望借助我们的跟踪能力,因为我们有了Grafana Tempo,”Burian说。

“我对我们的监测情况从来没有像现在这样满意过,”Burian补充道。“事情只会从现在开始变得更好。”

想了解更多关于Dapper实验室的可观察性之旅,请查看Andrew Burian的文章在2021年GrafanCONline完成演讲

行业
金融服务

公司规模
250 - 500名员工

总部
加拿大的温哥华BC

400万年

系列活动监控


20 x

在部署到Grafana Cloud后,增加了量度


100 x

Grafana Cloud的活跃用户增长