博客/社区

监控远程用户工作站与普罗米修斯,Ansible Grafana云

2021年12月17日,3分钟

监测通常是与服务器和应用程序,但是fintech自动化平台Ocrolus最近需要设置监控不同的目的:获得有意义的数据和见解对近1000名远程用户工作站。

在一个演示ObservabilityCON 2021特拉维斯Ocrolus的技术运维经理约翰逊走过他的公司如何使它发生而重用尽可能多的现有工业工具和知识——特别是Grafana云和普罗米修斯。

在Ocrolus、生产业务功能与严格sla与工作站性能。问题是,“我们有近1000,低端的Linux工作站,”约翰逊说。“旧双核被动散热片,我们想要开始收集度量标准。”

机器生活在两个环境之一:与员工在家里,Ocrolus不能控制网络,并与限制网络在办公室。当时,每个人都是远程工作,没有远程管理解决方案。给定的用户数量,约翰逊表示,他不想设计一次性的解决方案。他知道,在未来,即使是很小的改变配置需要大量的工作。

约翰逊知道他想要一个推模型,所以他跟着Ansible管理以及传送(SSH替换)一般的远程访问。

Grafana云来救援

约翰逊说,设置监控系统很容易因为Grafana云自动处理困难的部分。例如,Grafana代理确保他不需要担心资源使用情况。他没有考虑尺度度量来处理1000主机,。“我认为Grafana云上的1000是微乎其微的雷达,”他说。

唯一的真正的痛苦点吗?“普罗米修斯使调试remote-write失败——就像一个代理没有网址白名单困难,”约翰逊说。他在Github寻找解决方案bob彩票中奖计划,但没有发现它们有用。

约翰逊随后讨论了他实际代理配置和共享这个代码块从他Ansible存储库:

他共享两个具体建议基于经验:

  • 使用set_collectors(而不是enable_collectorsdisable_collectors),因为“对抗-或违约并不是一个伟大的经验。”
  • 使用replace_instance_label国旗。默认值Grafana代理上,但他认为这非常有价值的,他喜欢显式地包含它。“天真的设置,你可能最终与每台机器标签本身作为本地主机,”他说,“如果你使用普罗米修斯刮许多节点专家,你会得到他们的IP地址。“他用Ansible改变其机器的主机名和序列号相匹配或硬盘的序列号(见下文)。

之后,约翰逊不得不处理很多不相关的问题,比如恶劣d-package州,老先前项目的配置。“你第一次引入机管理任何基础设施,你会发现所有的一切都是漂流的不同的方式,”他解释道。

但是一旦Grafana探员们在所有的机器,Ocrolus能够开始使用文本文件收集器创建自定义指标。

和所有的工作与新指标,得到了回报。他说,该公司能够“数据驱动决策左右移动一切固态硬盘,而不是仅仅因为人们不喜欢它。”

了解更多关于监控工作站在Ocrolus,查看完整的ObservabilityCON会话。我们所有的会话从ObservabilityCON 2021现在可以在需求。

对学习感兴趣Grafana云吗?现在免费注册看看我们慷慨的永远免费的层和每个用例的计划。