博客/社区

Salesforce如何通过Grafana和Prometheus大规模管理服务健康状况

2021年7月8日4分钟阅读

基于云计算的软件公司Salesforce是全球最大的客户关系管理平台(CRM)。它帮助企业通过一个集成的平台连接他们的营销、销售、商务、服务和It团队。

在一次GrafanaCONline 2021报告, Salesforce的一个团队讨论了他们如何使用Grafana的仪表板、Prometheus和插件来可视化和管理整体服务健康状况和警报,以及推动整个公司的整体产品可用性洞察。产品管理高级总监Francbob电竞频道es Zhao-Perez表示:“我们利用Grafana Labs的云本地解决方案来帮助我们管理低延迟警报,并帮助自动修复和自动缩放。”

该小组开始解决Salesforce的技术设置,其中包括Grafana OSS和Grafana企业.首先,Salesforce的首席软件工程师Pavan Rangavajhala专注于该公司如何使用Grafana获得实时服务健康洞察。他强调了他们所依赖的定制Grafana面板,并讨论了他们使用的一些特性——如重复行、分页和定制弹出框——来创建动态和复杂的仪表板。

首席软件工程师Sanjana Chandrashekar随后概述了Salesforce的高度分布式云原生架构,她说,这需要“一个可靠的警报系统,可以提供接近实时的反馈”。为了满足这一需求,他们使用了超局部可观测性(HLO),这是一组后端开源和云本地可观测工具,捆绑了Prometheus、Grafana和Alertmanager。它与Salesforce的时间序列监测平台Argus协同工作,以实现全面的低延迟和高可用警报解决方案。

钱德拉谢卡解释说,为了使警报和仪表盘解决方案的管理更容易,自动化已经得到了很大的推动,这促使该公司开发了自动化工具。bob彩票中奖计划她接着分析了工具在Grafana仪表板环境中提供的一些好处——即模板、版本控制、可扩展性和集成。

软件架构师John O 'Brien随后做了一个关于可用仪表板类型的演示(它们是可用的、可理解的和全面的),并介绍了Salesforce的Grafana仪表板的三个用例:趋势、健康检查和性能监视。他还谈到了仪表板的质量标准,并分享了一系列Salesforce认为有价值的Grafana特性,比如在标题和其他文本中使用$变量的能力,以及在HTML面板中使用Javascript标注的能力。

最后,软件工程经理Joe Pallotta,他在Salesforce的商业云上工作,说明了这一切是如何结合在一起的。Commerce Cloud平台每月为20亿购物者提供服务,salesforce的客户每天产生超过300万笔交易,平台可用性达到历史最高的99.99%。他说:“Grafana是我们每天使用的工具,用来监控客户在平台上的表现,确保他们在最关键的销售活动中取得成功。”

然后,他展示了该公司在顾客最重要的假日购物期——黑色星期五至网络周——监控策略的案例研究。Grafana是他们的指标栈的一部分,“它是一个窗口,可以让我们看到客户在平台上的表现有多好,”他说。

Salesforce每分钟处理超过7000万个电子商务指标。根据这些指标,该公司的内部团队已经配置了数千种独特的警报定义。Grafana警报,结合Salesforce自己的警报服务,每分钟处理超过12万个警报,为其内部团队提供主动监控能力。每天,Grafana为公司内部团队的300多名活跃用户提供服务。

Pallotta展示了他们用来有效监控客户在平台上表现的Grafana主要仪表板之一,并解释了他们如何有意地构建仪表板,以尽可能快地呈现关键信息。它具有一个概述部分,显示六个不同的折叠图,允许用户快速评估跨客户站点的活动和平台上的整体健康状况。

Salesforce可以观察到的数据包括高系统利用率、每个服务器的CPU和数据库连接。根据公司所看到的情况,它可以引导调查,找出客户可能遇到的任何问题的根本原因。然后,帕洛塔浏览了其中一个完整的调查,以展示如何使用Grafana图来集体解决一个问题。

他说:“这种快速的根本原因分析使我们的团队能够主动识别客户的问题。”“只要有足够的细节,就可以让客户迅速解决问题,我们的内部团队就可以进行补救。”

了解更多关于Salesforce如何使用Grafana的信息,并查看团队每天使用的准确仪表板来排除故障,确保其Commerce Cloud客户继续拥有良好的体验观看整个会议的视频.GrafanaCONline 2021年的所有会议现在都可以按需提供。