成功/更新日志

使用Grafana Cloud在Changelog上监视网站性能

Gerhard Lazu喜欢基础设施、操作和保持运行。众所周知,他认为探索和学习Kubernetes很有趣。在更新日志作为一家独立媒体公司,他热衷于为软件开发人员分享鼓舞人心的内容,他将这种热情的一部分用于维持网站可靠性工程师的工作。因为只有一小部分人在Changelog幕后运作(亲切地称为Team One),所以这是一项相当艰巨的工作。

Gerhard和整个Changelog的团队热情地关注那些听他们播客的开发人员,包括the Changelog, Go Time, JS Party和Ship It。2021年7月,格哈德与Grafana产品副总裁汤姆·威尔基(Tom Wilkie)进行了一次面谈船它插曲关于洛基,Tempo, Grafana云,和可观察性的演变定义.在Grafana于2020年成为Changelog设置的一部分之后,这是一个特别有趣的对话,当时Gerhard正在寻找一种kubernetes原生监控解决方案,使其易于理解Changelog.com行为。

构建一个kubernetes友好的监控和日志系统

当时,Team One很难看到Changelog.com设置的行为。他们希望第一个知道什么时候出现问题,并在影响用户体验之前快速识别和解决问题。由于有如此多的访问者到他们的网站下载播客,并与跨时区的内容进行互动,监控性能和发现制作中的问题是重中之重。在他们现有的设置中,格哈德会从团队成员那里收到一条Slack消息,说有问题,然后必须筛选Pingdom、Papertrail和Netdata来找出发生了什么。对于用于合成监视、日志和度量的独立系统,解决单个问题可能需要几个小时。

格哈德被介绍给Grafana而且普罗米修斯在几年前构建一些RabbitMQ仪表板时。“格拉夫纳和普罗米修斯很容易上手,”他回忆道。“所以,尽管我对这些工具一无所知……开始制作仪表盘非常容易。”他特别喜欢格拉夫纳直截了当的制作过程。

试着思考我想让我的仪表盘说什么,我想让它讲述什么故事——这对我来说是一个很好的方法。而Grafana让这一切变得简单。

Gerhard Lazu, Changelog

因为开始构建仪表板非常容易,Gerhard很快就开发出了5到6个有用的仪表板。“当你第一次使用手机,你就知道该做什么?《Grafana》有点像那样,”他说。虽然这些仪表盘很有帮助,但随着Alex Koutmos的添加,一切都变得更好地集成了。prom_ex它是一个Elixir库,在Changelog.com应用程序中使Prometheus度量和Grafana仪表板成为一流的。在此之上,Kube -prometheus-stack添加了更多的集成和开箱即用的仪表板,使团队能够立即注意到块存储和Kube代理中的瓶颈。Grafana和Prometheus提供了系统的可见性kube-prometheus-stack与prom_ex结合提供了无缝集成。“大帐篷哲学——我喜欢这种信念,我喜欢这种原则,这就是吸引我的地方,”格哈德谈到Grafana时说。“它能很好地与所有这些数据源集成,这是一个很大的优势。”

Changelog.com’s PromEx Ecto仪表盘

看看Changelog.comPromEx Ecto仪表盘

使用Grafana Cloud无痛缩放

在2020年12月,Changelog的人们通过他们的Grafana监控设置节省了相当多的时间。但是,由于Team One的大多数成员在空闲时间改进了Changelog设置,因此每一秒都花在管理监控事项上。后添加Grafana洛基从Gbob电竞频道rafana Labs的开源日志聚合工具到他的监控设置,Gerhard在Changelog.com上对设置的可见性越来越好,越来越健壮。但是维护监视设置也变得越来越耗时。为了让Changelog承载Grafana、Prometheus和Grafana Loki本身,需要定期对其进行维护和升级。

changelog.com的NGINX基于日志的web流量仪表板

看看Changelog.com的NGINX基于日志的网络流量仪表板


当Grafana推出一个bob体育手机二维码永远免费层Grafana云在美国,这对格哈德和他的团队来说是天作之合。迁移到托管服务意味着Changelog可以保持其健壮的监视设置,并通过将升级、修复和维护留给Grafana来节省时间。

让我们自己来经营没有意义。这并不是说它很难,而是运行Grafana代理要容易得多。这就是你所需要的。将所有内容发送到Grafana Cloud,它就可以工作了。

Gerhard Lazu, Changelog

享受解耦的度量、综合监视和警报

Gerhard和团队非常享受Grafana Cloud为他们提供的Changelog.com设置的可见性。该网站每周提供许多tb的数据,其中大部分直接来自CDN, Grafana Cloud存储了所有的指标。他们的指标和日志服务与其他系统完全分离,这让Gerhard安心了。它更加可靠,因为即使它们的来源不可用,也不会影响监控。Gerhard说:“我们知道指标和日志是安全的,我们可以随时访问它们,这一切都很好。最近,当Changelog改进了他们的fast设置,以便所有可以缓存的请求都可以存储过时时,一个Grafana仪表板帮助可视化HTTP响应延迟的差异。所有这些都可以在Grafana Cloud中与整个团队共享。

更新日志的合成监控摘要仪表板

查看Changelog的合成监视摘要仪表板


更改日志团队的另一个巨大优势是Grafana Cloud内置合成监控.合成监视探针使Gerhard从外部角度深入了解Changelog.com设置的行为。使用世界各地的探测位置,他可以为世界各地的用户监视Changelog.com服务的可用性、性能和正确性。现在,以前需要几个小时才能解决的事件——甚至从未被发现过——只需要几分钟。例如,最近潜入生产环境的一个拼写错误导致了大约19分钟的后端停机时间。Grafana Cloud在几秒钟内通过Telegram向格哈德发送了警报。在收到来自Grafana Cloud的警报十分钟后,Gerhard已经锁定了这个问题并更正了它。格哈德说,总的来说,他发现MTTR减少了约3倍。

Changelog的Origin合成监控HTTP仪表板

Changelog的Origin合成监控HTTP仪表板

查看Changelog的Origin合成监控HTTP仪表板


有了Grafana Cloud,他不再运行自己的监视器并将它们分散到整个世界,这一切都得到了解决。“即使Grafana Cloud的合成探针失效或退化,它们也能在我们不干预的情况下恢复。这意味着我们少了一件需要担心的事情,”格哈德说。

他还非常欣赏Grafana Cloud带来的健壮的警报功能。通过将Changelog.com警报与Grafana和Telegram集成在一起,该团队又多了一个警报频道。格哈德说:“有时我们会收到警报过载,但我们总是知道什么时候有问题。”他们已经建立了冗余,以确保一旦Changelog.com基础设施出现问题,他们就会知道。团队会收到多个通知,这些通知提供确认。“我只是喜欢我的冗余,”他说。因为当出现问题时,你需要可靠的东西。有了Grafana Cloud,他知道整个Grafana团队都在那里,支持他的每一步。

Changelog.com的警报仪表板

查看Changelog.com的Alerts仪表板


这些天,Gerhard和Changelog团队正在Grafana Cloud Pro上运行他们的监控生态系统。格哈德不再担心成本、升级或什么时候出了问题。Changelog的Kubernetes占用空间更小,他们不必担心每年升级设置时迁移数据的问题。格哈德说:“Grafana Agent是我们唯一需要担心的集成,这很好。他还估计团队现在有大约10%的额外维护预算用于其他事情。

为Changelog.com规划未来道路

现在Gerhard花在维护监视和日志记录设置上的时间减少了,他能够以一种全新的方式来考虑Changelog的基础设施设置。因为指标和日志是在Grafana Cloud中处理的,所以它们与主要的IaaS是分离的,团队可以采取更大胆的步骤,更多地关注重要的事情,比如转移到多云设置。

我们不依赖于IaaS进行监控。我们可以进行实验,这是一个巨大的优势。

Gerhard Lazu, Changelog

格哈德说,迁移到Grafana Cloud使事情变得更加灵活和容易,许多困难的事情变得更加简单。那么这个团队下一步要做什么呢?使用slok/sloth跟踪Changelog.com的服务级别目标,最后开始研究跟踪。有了Grafana Cloud,他可能会从中获得很多乐趣。

行业
软件与技术

公司规模
1 - 10名员工

总部
休斯顿,德克萨斯州

bob手机app官网产品/项目使用

79bob官方下载

Grafana洛基

普罗米修斯

Grafana云

3 x

用Grafana Cloud降低MTTR