博客/社区

监控HPC系统健康Grafana和Psychart

2022年10月14日 7分钟

尼古拉斯·文图拉是一个关键设施工程师,有经验的机械和计算机系统。

国家能源研究科学计算中心(·东)是一个现代数据中心拥有两个强大的高性能计算(HPC)系统在全球范围内用于科学研究遗传学、物理学、地质学、和更多。因此,基础设施团队·必须密切跟踪设施,以确保最优操作条件。

劳伦斯伯克利国家实验室加州伯克利分校·雇佣了一个详尽的运营数据分析模型来监测数据从所有设施,包括遥测、能耗和环境数据。这些信息用于诊断系统中的问题,努力减少水和能源消耗,优化和监控整个工厂的健康。

我们使用一个集合的几个程序,数据库,电表,传感器对我们的系统进行实时分析。这个分析是至关重要的,因为任何偏差在一定空调参数可以降低我们的高性能计算系统。例如,如果空气:

  • 太潮湿,它可能会导致腐蚀、磁带媒体错误,阳极失败等等
  • 太冷,这可能会导致一个劳累机械系统,用电也不那么有效
  • 太干,会导致静电放电
  • 太热,可能导致过热,降低整个系统寿命

在这个博客中,您将了解我们如何集成空调数据图表与Grafana快速而方便地监测我们的HPC系统的送风条件。

HPC系统·如何收集和可视化环境数据吗

作为基础设施建设集团的一员,我特别感兴趣的环境数据聚集在我们的建筑管理软件从温度、湿度、流量传感器在我们的机械设备。我们的数据发布到Prometheus-style数据库名为VictoriaMetrics组织数据的时间戳和使它更容易在Grafana可视化创建复杂的查询。

流程图描述了收集、组织和显示过程·。
流程图说明·构建数据收集,组织,并显示。

我帮助整理几个仪表板可视化数据从我们的机械冷却装置。数据系列的仪表板下面演示了一些被我们的空气处理程序。这些信息是至关重要的,因为这空气处理程序堆栈是空气进入我们的风冷HPC辅助系统在数据中心。

Grafana仪表板显示·空气处理数据。
一个示例Grafana仪表板显示空气处理数据。

如果温度过高,例如,高性能计算设备可以运行低效率最好的或受损。没有这些类型的可视化,这将是更难监控空气条件响应控制程序的变化,因为我们的建筑管理系统可视化和商店更少的数据有限。

供应空气温度是一个重要的指标,因为它是空气的温度被推入机房空气处理程序。然而,送风温度,或“干球“温度,不是足够的信息来评估设备卫生。

美国社会的供热、制冷和空调工程师(ASHRAE这样)已经定义的环境参数,已经成为一个标准的数据中心。保持在允许的范围内,这些参数可以保持效率和计算机设备的寿命最大化。

这些参数不仅包括干球温度、湿球温度、露点温度和相对湿度。这些被称为湿度状态变量,称为组合湿度状态。我们的系统需要一个严格的公差空气的状态,所以可视化状态有助于我们迅速采取行动来保持我们的数据中心的健康。

Grafana仪表板显示露点,温度和湿度数据。
Grafana仪表板显示露点,温度和湿度数据。

上面的图表显示了一些Grafana很多内置的方法来可视化的所有相关湿度数据。虽然这些可视化养眼,这个Grafana仪表板可以当试图辨别一个州。

幸运的是,我们只需要知道两个湿度属性“修复状态。”这意味着其他所有状态变量可以计算通过了解任何两个。我们可以通过使用湿度图。运营商使用这种类型的图来快速得到反馈,这样他们就可以做出必要的调整,进而支持HPC系统被用来加快科学研究。另外,如果温度/湿度传感器出去,这种类型的可视化不会受到影响,只要两个传感器仍然运行。我的一些同事在基础设施建设集团要求实时湿度图很长一段时间,我们努力用Grafana创建这个解决方案。

引入Psychart:湿度图与Grafana集成

一个空白的湿度图,由Psychart生成的。
一个空白的湿度图,由Psychart生成的。

我建立了一个项目被称为“Psychart”,旨在整合Grafana湿度图。我使用了Grafana起动器面板作为这个项目的样板和一个图书馆Psychrolib。Psychrolib,我可以计算整个州的空气通过输入任意两个状态变量。我离开这两个变量的选择用户的自由裁量权。

Grafana Psychart配置选项的一个屏幕快照。
在Grafana Psychart配置选项。

呈现湿度图是一个有趣的挑战。这个项目之前,一位同事试图创建一个使用SVG Grafana这些图表的面板。但她发现很难呈现数量可变的状态和执行计算在每一个国家翻译(x, y)坐标。另一位同事创建了一个离线功能程序,可以成功地呈现多个点到图,但它不是连接到我们的网络,不提供相同的多功能性Grafana面板。

知道Grafana支持SVG图形渲染,这是我选择的路线绘制面板。我写了一个函数,一般的湿度状态转化为一个(x, y)点用来渲染图和所有传入的数据。我嵌入ASHRAE这样气冷式数据中心的指导方针允许用户选择覆盖推荐空气供给的目标。有多组不同类型的数据中心指南下图所示。

截图的湿度图ASHRAE这样的指导方针。
Psychart展示了各种类型的数据中心的ASHRAE这样的指导方针。最轻的紫色是最严格的(对于一般的空间)和最黑暗的紫色是最严格的信封(关键任务数据中心环境空气质量较差)。

下图分解为什么这对操作员和工程师可视化是非常重要的。

湿度图显示的影响外出ASHRAE这样的指导方针。
外的湿度图突出的负面影响ASHRAE这样的指导方针。

湿度图也让它更容易解释不同的空调操作。

湿度图显示各种空调操作的影响。
湿度图显示各种空调操作的影响。

提高数据的准确性通过连接到一个API

下面你可以看到从仪表板,Psychart伟大工作监控我们的空气处理器送风。

干湿表视觉显示空气处理程序。
干湿表Psychart显示空气处理程序。

这样,我们很快学会了更好的用例。例如,我们最新的HPC系统运行克雷沙士达山操作系统,它提供了环境数据的API。我们用这个来创建更详细的视图在摇滚的温度和湿度,这样可以得到更好的系统维护。

Grafana Psychart显示器显示在摇滚的条件。
在摇滚条件使用克雷沙士达山API。

使用Psychart和Grafana监测空气供给条件,我们可以迅速确定空气的状态,确保我们的机械控制程序是正常的。Psychart还提供了几个定制选项,如将从美国转换为公制单位,改变大小和颜色,等等。

和Psychart可以应用于其他用例,如监控化学过程或大气状况。·我们也观察室外空气与Psychart条件,这给了我们了解它是否安全操作完全依靠外部空气或者空气需要首先条件。

Psychart显示外部空气条件下被空气处理器·。
Psychart显示外部空气条件下被空气处理器·。

Psychart发表在2022年5月,它已经收到了8000下载。作为我研究生顶点项目,已经接到暴露·周(展示·旅游和事件)和高性能计算算子的评论(HPCOR)。审查了它与其他美国国家实验室的牵引用户电脑设施。这个项目,开源和免费下载,被证明是一个极其有用的可视化工具为我们的冷却装置等。

想分享你的Grafana故事和仪表板与社区?给我们留下stories@www.tubolov.com