博客/社区

Salesforce如何通过Grafana和Prometheus大规模管理服务运行状况

2021年7月8日4分钟

云计算软件公司Salesforce是全球最大的客户关系管理平台(CRM)。它帮助企业通过一个集成平台连接营销、销售、商务、服务和It团队。

在一次GrafanaCONline 2021演讲, Salesforce的一个团队讨论了他们如何使用Grafana的仪表板、Prometheus和插件来可视化和管理整体服务运行状况和警报,以及推动整个公司的整体产品可用性洞察。产品管理高级总监Francbob电竞频道es Zhao-Perez表示:“我们利用Grafana Labs的云原生解决方案来帮助我们管理低延迟警报,并帮助自动修复和自动扩展。”

这个小组从解决Salesforce的技术设置开始,其中包括Grafana OSS和Grafana企业。首先,Salesforce的首席软件工程师Pavan Rangavajhala专注于公司如何使用Grafana获得实时服务健康状况的洞察。他重点介绍了他们所依赖的自定义Grafana面板,并讨论了他们使用的一些特性——例如重复行、分页和自定义弹出窗口——以创建动态而复杂的仪表板。

首席软件工程师Sanjana Chandrashekar随后概述了Salesforce的高度分布式云原生架构,她说,这需要“一个可靠的警报系统,可以提供接近实时的反馈。”为了满足这一需求,他们使用了超本地可观察性(HLO),这是一组后端开源和云本地可观察性工具,捆绑了Prometheus、Grafana和Alertmanager。它与Salesforce的时间序列监控平台Argus合作,实现了一个全面的低延迟和高可用性报警解决方案。

Chandrashekar解释说,现在有一个很大的推动,就是允许自动化,使管理警报和仪表盘解决方案更容易,这促使公司开发自动化工具。bob彩票中奖计划然后,她详细分析了这些工具在Grafana仪表板环境中提供的一些好处——即模板、版本控制、可扩展性和集成。

软件架构师John O 'Brien接着做了一个关于仪表板类型的演示(它们是可用的、可理解的和全面的),并介绍了Salesforce的Grafana仪表板的三个用例:趋势、运行状况检查和性能监视。他还谈到了仪表盘质量标准,并分享了一系列Salesforce认为有价值的Grafana特性,比如在标题和其他文本中使用$变量的能力,以及在HTML面板中的Javascript调用。

最后,软件工程经理乔·帕洛塔(Joe Pallotta),他在Salesforce的商业云部门工作,阐述了这一切是如何结合在一起的。商业云平台每月服务20亿购物者,salesforce的客户每天产生超过300万笔交易,达到99.99%的平台可用性。他说:“Grafana是我们每天用来监测这些客户在平台上的表现的工具,以确保他们在最关键的销售活动中取得成功。”

然后,他介绍了一个案例研究,介绍了该公司在顾客最重要的假日购物期间的监控策略:黑色星期五到网络周。Grafana是他们的指标堆栈的一部分,“是一个窗口面板,提供我们的客户在平台上的表现如何,”他说。

Salesforce每分钟处理超过7000万个电子商务指标。根据这些指标,该公司的内部团队配置了数千个独特的警报定义。Grafana报警与Salesforce自己的报警服务相结合,每分钟处理超过12万个报警,为其内部团队提供主动监控功能。Grafana每天为公司内部团队的300多名活跃用户提供服务。

帕洛塔展示了他们用来有效监控平台上客户表现的一个主要的Grafana仪表板,并解释了他们是如何有目的地构建这个仪表板,以尽可能快地呈现关键见解的。它的特色是一个概述部分,其中显示了6个不同的上方图表,允许用户快速评估整个客户站点的活动和平台的整体健康状况。

Salesforce可以观察到的数据包括高系统利用率、每台服务器的CPU和数据库连接。基于公司所看到的,它可以引导调查,以发现客户可能遇到的任何问题的根本原因。然后,Pallotta回顾了其中一个完整的调查,展示了如何使用Grafana图来集体解决问题。

他说:“这种快速的根本原因分析使我们的团队能够主动地与客户识别问题。”“有了足够的细节,客户就能迅速解决问题,我们的内部团队就能补救问题。”

了解更多关于Salesforce如何使用Grafana的信息,并查看团队每天使用的确切仪表盘,以排除故障并确保其商业云客户继续拥有良好的体验观看整个会议的视频。所有2021年的GrafanaCONline课程现在都可以按需提供。