成功/ Lightbend

Lightbend,背后的公司有状态serverless平台即服务Akka serverless,使用Grafana云监控基础设施

当等顶级企业第一资本,贝宝,和Verizon需要平台的要求,全球分布,云本机应用程序环境和流数据管道,他们转向Akka最受欢迎的角色模型的实现,云Kubernetes上运行的本地应用程序。

Akka背后的公司Lightbend在云的世界领导人本机应用程序和体系结构。了十多年,Lightbend提供可伸缩的、高性能的microservices构建以数据为中心的系统框架和流引擎优化云本地基础设施上运行。

2021年6月,Lightbend宣布公开测试版Akka Serverless(一般可用性,2021年11月),云平台即服务本地开发的一个新类。可观测性是至关重要的成功不仅Akka Serverless还Lightbend本身。毕竟,说该公司的网站可靠性工程师,费尔南多·科斯塔,”如果你服务或托管公司的数据和你有一个事件,你可以失去客户。”,因此,公司依靠Grafana云监控其Kubernetes集群。

因为我们拥有的工具,我们还没有与Akka Serverless有任何停机时间。

费尔南多·科斯塔、铅网站可靠性工程师,Lightbend

Akka Serverless, Lightbend共同部署“状态”功能,这意味着数据的函数需要的是交付给函数时,数据是必要的。通过这种独特的方法,Akka Serverless给开发人员带来了一个api, database-less编程模型和Serverless运行时。“我们不能操作Akka Serverless没有可观察性。这是一切,”科斯塔说。“我们运行这些功能不知道他们所做的事情或任何关于他们的逻辑,但是我们需要让他们跑步,有一个很好的方式来收集他们的指标。从外部可观察性让我们更好的理解,因为我们不能检查功能。”

与自动化、Lightbend也可以掌握所有客户的功能同时没有有人检查他们在每一个时刻,哥解释说。“我们现在有客户使用该系统,他们可以从两个豆荚100豆荚秒。“但Lightbend可能不知道,要不是Grafana云。“如果没有这样的工具,我们不能做得对任何可能的异常或故障检测和报警,”他说。“你不能看每个人都在同一时间。”

监控与Grafana帮助Lightbend满足sla和SLOs更快的响应时间。“我们可以看看Akka Serverless工作,证明它的工作和我们的服务器响应及时,”他解释说。

可观察性有助于Lightbend掌握之前,他们的客户体验。“你不想有一个事件,不知道它——或者更糟的是,有客户告诉你,”科斯塔说。“监测的价值是知道是错误的之前客户通知,或在某些情况下,在事情发生之前。”

从头开始

哥在2020年加入Lightbend,直到那个时候,Akka Serverless没有一个集中的可观测性工具。他熟悉Grafana从先前的系统管理员的工作,并一直使用它大约四年了。

当他首次尝试Grafana,科斯塔印象深刻是多么容易使用的。“很高兴只是开始绘图的事情,”他说。和可观察性而言,他补充说,“这是完美的工具来预测或预防问题。”

Flash期待当哥开始思考如何解决Lightbend的需要。他很快意识到,Grafana是一个完美的匹配,而不是因为他的同事们开源爱好者。”同时,我们写的所有库可以使用普罗米修斯容易暴露指标,”他说。“这是一个双赢的局面。“哥也喜欢Grafana提供了灵活性。“更好,我可以使用相同的多个数据源的工具。”

最终选择Grafana之前,科斯塔测试另一个比较有竞争力的解决方案。他认为这是好基本的监测指标和事件,但不是Lightbend先进的需求。其中包括能够操作数据,确保用户部署操作得当,所有项目的同时保持严格的IaaC标准。“如果你需要发布标准,”他说,“Grafana是更好的选择。”

一旦科斯塔致力于Grafana作为他的选择,他当时面临着另一个决定:如何最好地主人,管理和部署的方式优化他的团队的工作负载和Grafana规模的能力与Lightbend业务的需要。

我们需要关注我们的产品,而不是别的东西。和Grafana云给了我们心灵的平静。

费尔南多·科斯塔、铅网站可靠性工程师,Lightbend

尽管哥以前的经验用到皮层和脚本,就会使Lightbend这样做,有太多的缺点,类型的设置。“这就像一个FTE的工作只是为了维护,还有安全问题,”科斯塔解释道。“这将需要至少另一个集群,我们必须在其他地方发送数据,确保正确存储。我也认为我们有皮质和Thanos,所以这是一个很多处理。”

哥也显示他的经理要花多少钱支付所有的成本相比Grafana云。由于所有这些原因,决定注册Grafana云离开的担忧可伸缩性,可用性、备份和更多Grafana实验室——是一个简单的。bob电竞频道“每个人都是幸福的,”他说。“Grafana将字面上的简单的更新我们。”

由于Grafana云,科斯塔能够关注Akka Serverless的表现而不是运行一个可观测性基础设施堆栈。“我们需要关注我们的产品,而不是别的,”他说。”和Grafana云给了我们内心的平静。”

数据流设计

后决定的工具和部署方法,最适合Lightbend,科斯塔出发,以确保一切都正确的架构。

普罗米修斯Lightbend管理和协调在Kubernetes容器,并运行在同一集群。他们有两个Kubernetes集群与54节点和343客户在生产(增长)。在Grafana云指标,该公司拥有超过420000活跃系列普罗米修斯和石墨。

Lightbend获取数据主要来自普罗米修斯,还从谷歌Stackdriver。”,而不只是把数据和导出普罗米修斯,我只是阅读直接从谷歌,”科斯塔说。公司目前拥有Postgres和石墨数据源,他们依靠Grafana云指标对普罗米修斯和石墨。

科斯塔Lightbend创建的第一个Grafana仪表板,和他的建筑类型,如节点出口国,API服务器,Kubernetes API, Istio。但是工具变得如此受欢迎,现在用户甚至不上他的团队,创建自己的仪表板以哥的团队解决问题时甚至没有想到第一个设置Grafana系统。有超过25个成员国的门户。“我们有很多不同的人们创建仪表板,”他说。“有些人甚至BI运行。”

如果团队在公司运行Kubernetes Grafana想添加指标分析,他们只需要标记正确豆荚和部署。“每天都有新的东西,”科斯塔说。“这是不可能使用其他工具——或者它需要我们编写代码和改变我们的代码来做。这些都不是值得考虑到Grafana云指标允许我们做的。”

科斯塔发送每日Grafana-generated报告,他说Lightbend CEO乔纳斯大错甚至注意到图中的数据。“有一次他问为什么一个数字是20毫秒一天两秒。“哥能够找到答案在不到两分钟后检查更详细的仪表板。

投资Grafana不仅帮助公司作为一个整体,但它改变了哥和他的团队功能。“我没有Grafana团队的生活将是一个噩梦,”他说。“并不是每个人都能获得Kubernetes和我们其他的生产环境中,所以任何人都需要一个度量来我们去问。我没有计算的命令或总和指标准备在我的脑海里,所以要花很多时间把他们的答案。“相反,哥和他的团队可以专注于看趋势和保持领先的任何潜在的问题。

关键指示板

哥和他的团队正在不断在Grafana Akka跟踪发生的事情,和一些仪表盘的常规首选。这是一个抽样Lightbend的一些关键指示板:

Akka Serverless一般指标

哥的一个最喜欢的仪表板是用于监控高级度量。仪表盘上的面板包括总项目,活动项目,服务运行在Akka Serverless gRPC请求、命令、趋势,警报和那么多。这是每天的数据共享整个公司。“这是几乎所有的数字在过去24小时内,”他解释说,“没有数据,我们不能显示。”

科斯塔回忆事件当Grafana仪表板和提醒帮助Lightbend阻止什么可能是一个巨大的挑战。谷歌主要故障影响了几家公司,但在谷歌宣布这一事件之前,科斯塔说他的团队注意到新节点没有启动。“我们能够保持系统即使有这重大的中断,因为我们看到的所有指标所犯的错误,我们开始测试。他们不能发射节点两天,但因为引发的警报从我们Grafana仪表盘告诉我们会有一个问题,我们已经推出了额外的节点和能够安然度过谷歌的问题对我们的客户没有任何敲影响”

操作

使用仪表板下面Lightbend的Akka Serverless和操作团队,这是一个真正的节省时间。“基本上,如果我有任何问题,我可以来这里看看发生了什么,而不必访问Kubernetes或登录到系统,”科斯塔说。“我们可以看到所有的生产部署,所有的容器,一切运行的。我也可以选择通过名称空间,看看请求运行,或检查数据的双轮马车。”

没有手动收集的所有信息,哥估计使用Grafana仪表板保存一个支持团队成员至少20到30分钟,每次有一个问题,因为他们可以每周有两到三个问题,随着时间的推移,可以添加和团队成员。“很时间和成本效益的最终,”他说。

它不仅仅是一个时间和省钱,虽然。“这也是安全的必需品,”科斯塔说。“我可以获得生产如果我需要它,但我甚至不需要访问Kubernetes每天了。如果我需要检查什么,我刚刚来到这个指示板。”

哥和他的团队之外,Lightbend安全的技术支持小组还利用单窗格Grafana提供。“他们极少有访问我们的生产环境中,所以他们使用这个仪表盘每天看到发生了什么,或者如果一个容器并不是运行一个CPU——无论这个问题——的支持Akka Serverless开发商。”

综合监测

Lightbend也使用综合监测,Grafana云的一个关键特性。Akka Serverless指标仪表板下面的一些外部端点,包括时间,科斯塔计算与合成材料的数据。他计划做得更多。“我们现在设计我们将使用合成材料如何监控每个部署服务的响应时间和可用性不同的地域——就像一个基本的验证,”他解释说。Lightbend将使用,作为一个SLO报告的一部分。

这个合成仪表板监视器Akka Serverless API可用性。其API是系统的关键部件之一,因为它是用户与系统交互的入口点和管理他们的服务。

开放源代码和支持

非开源可观测性工具不允许全面了解软件运行,所以Grafana的好处之一是,客户可以找到(或创建)自己解决问题。bob彩票中奖计划“我经常打开GitHub,试图找到一些或编写代码自己改变一些事情,”科斯塔说。

Lightbend经历了破碎的管道时,他可以参考在GitHub Grafana源代码和运行一个集装箱码头工人在测试快速确认这个问题。有这些信息方便加快与Grafana团队的支持。“他们的反应快,”他说,“我已经得到了所有的答案我需要。”

期待

Akka Serverless Lightbend引入了一个性能测试,并使用Grafana作为的一部分。“我们正在运行一个旧版本的性能,推动数据Grafana,应用升级,运行一遍,比较两个,并寻找一个警告,如果他们大幅改变,”科斯塔说。“报警应该一旦我们有足够的数据来决定合适的阈值。”

他希望在不久的将来,Lightbend可以开始使用洛基(和Grafana云日志)所以他可以无缝地关联指标和日志。这时,Lightbend日志是在谷歌的云平台,因此建立了仪表板与哥斯达黎加链接回到谷歌Stackdriver,选择适当的名称空间。“但不是同样的事情,”他说。“我是一个视觉的人,所以,如果我能想象事情关联它帮助我很多,而不是通过链接跳。”

因为他认为对他依赖Grafana Lightbend,科斯塔奇迹的技术进步改变了多年来监控和可观察性。“十年前,我对200台服务器管理。他们的名字——他们喜欢宠物。和现在完全不同。就像我们有成群的牛,”他说。“令人惊奇的看到可观测性和自动化,我们可以管理成千上万的服务器和成千上万的应用程序。有工具可以帮助我们很多,Grafana就是其中之一。”

行业
软件与技术

公司规模
100名员工

总部
旧金山,

bob手机app官网产品/项目使用

79bob官方下载

普罗米修斯

皮质

石墨

Grafana云

420000 +

系列活动Grafana云指标