博客/社区

洛基如何帮助Paytm内幕节省75%的日志和监控成本

2019年11月19日 6分钟

Paytm内幕的座右铭是“来减少每天每天,”说语Pachpor流行的平台、技术经理在印度购买活动门票。”平台是由风扇里面的我们,谁想在网上订票最轻松的体验。”

所以当一个板球比赛门票或一个主要音乐艺术家的音乐会上市,公司的DevOps /行为团队知道它必须准备一个大流量激增,这在任何一天已经超过100万的点击量。

该公司开始在孟买事件管理业务四年前,一家本土AWS, Kubernetes, Grafana堆栈。“我们的目标是确保系统总是起来,这样我们的用户在移动web应用程序总是访问平台,“DevOps工程师说Aayush阿南德

由于越来越多的挑战

但随着平台规模增长,团队开始遇到的问题。

为了调试平台,影响用户体验的问题,“我们需要日志,DevOps工程师说总裁Baderia。“与我们的种植规模,日志记录和监测堆栈是增加的成本随着我们的规模,这并不适合我们。”

其次,在那些流量剧增,造成大降价销售的事件,“日志的数量将增加指数,以及log-drop率和时间来缓冲和船舶日志,“Baderia说。“为客户因此可能出现一个问题,但我们没有意识到或无法正常调试它。”

“高容量的日志,伸缩弹性集群在控制成本的同时非常困难,”他补充道,“而且经常节点会耗尽内存,导致重启和删除日志”。

监控无处不在

也许最重要的是,“我们没有为我们所有的监控解决方案中心位置,“Baderia说。bob彩票中奖计划

不同的团队使用不同的监控解决方案服务。bob彩票中奖计划Anand说:“我们监测了日志记录不同的AWS环境中运行的应用程序。然后我们Kubernetes堆栈普罗米修斯监控,我们将追踪指标如豆荚用法,CPU利用率,某某。然后我们也有我们的应用程序堆栈麋鹿用于跟踪应用程序日志和寻找缺陷和性能不同的服务的局限性。”

因此,“有许多不同的仪表盘,你不得不去看问题,“Baderia说。“这是我们联系变得非常困难。和我们的警报不集中。一个问题,我们可以得到三种不同的警报从三个不同的地方,还将创建一个很大的噪音,使我们更难调试这些问题。”

找到一个集中的解决方案

团队意识到它需要一种方法来“地图一起这些日志,这样他们可以更有意义,这样我们能找到我们生产环境中的问题更快更流畅,”阿南德说。

他们已经用Grafana普罗米修斯,开始探索洛基。“与promtail我们发现,我们可以尾巴的应用程序日志和指标在同一面板”,阿南德说。“使用洛基部署在Kubernetes Grafana对我们来说有意义。”

这个解决方案是实现在2019年7月。“洛基是相当容易使用和集成到我们的堆栈,“Baderia说。“它有一个默认的EBS存储在AWS资源使用和具有良好的估计和一切我们可能需要在默认执掌图表。但在通过文档和几个博客,我们认为我们还可以使用AWS DynamoDB AWS S3(存储索引)和作为一个后端(存储日志),这让我们规模水平尽可能不用担心如果我们的日志记录将会降低。”

的地方,团队开始获得收益。“一旦我们有所有日志以及指标在同一仪表板,我们能够非常迅速地找出引起的CPU利用率飙升映射与度量应用程序日志的时间,”阿南德说。“降低我们的时间响应显著不同的生产使用。我们能够找出是什么导致了延迟,是什么导致了错误在我们的应用程序在一个更快,更聪明比我们在做什么。”

例如,Paytm内幕的一个应用程序正在经历一个缓慢的响应时间。“洛基,我们能够发现,这叫这么多的时间,但是当我们跑在本地没有花尽可能多的时间,”阿南德说。“我们通过调查进一步发现中间件调用另一个API,这是长时间的。”

出色的业绩

今天,每服务团队得到每分钟2000日志,和洛基集中日志25服务。他们使用一个洛基仓作为一个有状态的设置和部署Daemonset promtail部署。

在洛基Paytm内幕日志
在洛基Paytm内幕日志

洛基之前,调试一个延迟问题的平均响应时间是30分钟。洛基,使用Grafana普罗米修斯,到10分钟。“小于,在大多数情况下,“Baderia说。

加上,团队取得了近一个堆栈日志和监控成本减少75%通过洛基的环境。为我们“那很好,因为现在,即使我们是扩展的用户群,我们的成本不伸缩,至少在我们的监控和日志记录,“Baderia说。

集中的警报已经帮助节省时间。“现在与日志和指标在一个单一的数据源,和一个可视化的工具,我们可以集中使用Grafana提醒,“Baderia说。“现在我们所有的警告来自一个地方,我们不用找其他地方。我们可以直接进入警报和观察指标的状态和日志的时间。”

现在有集中监控,团队相关基础设施和应用程序性能的一种方法。

展望未来

Paytm内幕团队正致力于进一步优化,成本和希望添加更多的功能。例如,团队想添加洛基仪表板作为数据源,使用洛基标签来使per-API监视和电池板融入其堆栈来实现水平可伸缩性。

但已经,洛基”为我们伟大的工作,”阿南德说。

“因为我们安装了洛基,没有一个事件或一个实例,洛基下降对我们来说,无论我们得到的应用程序日志,“Baderia补充道。

Baderia提到通过平台刚刚经历了一个巨大的流量激增,因为一个印度和孟加拉国T20板球比赛门票发售。

现在是没什么大不了的。“这令人惊异,”他说。“我们没有一个日志滴水在洛基或单个指标对普罗米修斯”。