2024-06-09
Karen Chen

AI运维是超算中心降低TCO的必然路径

AI运维是超算中心降低TCO的必然路径

如果你有机会参观一个现代化的超算中心,最直观的感受可能不是那些高速运转的芯片,而是其背后庞大而复杂的能源基础设施。这些“数字大脑”的能耗惊人,一个大型超算中心的年电费支出,常常以亿元为单位。朋友们常常问我,除了追求更高的计算密度(PUE),我们还有什么办法来管理这个“电老虎”的总拥有成本(TCO)?我的回答很直接:问题的关键,已经从“如何供电”转向了“如何智慧地管理能源”。这正是我们海集能近二十年来,从储能硬件到数字能源解决方案,一直在深耕的核心命题。

超算中心能源管理示意图

让我们先看一个现象。传统的超算中心能源管理,很大程度上依赖于人工巡检和预设的阈值告警。一套储能系统或者精密空调出了细微的效能偏差,可能要到月度能耗报告出来时才会被察觉。这种滞后性,在分秒必争的计算任务和精细到毫厘的成本核算面前,是致命的。据行业分析,超算中心约30%的能源成本源于非计算负载,而这其中又有相当一部分,是由基础设施的亚健康运行状态和调度策略不优造成的。这个数字很“结棍”(厉害),它意味着巨大的优化空间。

那么,如何填补这个空间?数据给出了方向。真正的TCO优化,必须建立在“预测”而非“响应”之上。通过部署智能传感器,采集从电芯级、电池簇到整个储能系统,乃至与光伏、柴发联动的一手数据,再结合超算本身的负载曲线、电价峰谷、甚至天气预报,我们可以构建一个动态的能源模型。AI的价值,就在于它能7x24小时学习这个模型,并做出最优决策。比如,它可以在电价低谷时,指挥储能系统充满电;在计算任务高峰与电网高峰重叠时,精准地调度储能放电,平滑电网需求,避免高额的需量电费。这种毫秒级的动态优化,人力是无法企及的。

一个具体的案例或许能说明问题。我们海集能曾为某地一个服务于人工智能训练的超算集群,提供了一套光储柴一体化站点能源方案,并深度集成了AI运维平台。这个平台接入了超过5000个监测点。在运行一年后,通过AI算法对制冷系统与储能的联动优化,仅在制冷环节就实现了15%的节能。更关键的是,通过对电池健康状态的早期预警和预测性维护,将计划外停机的风险降低了70%。这些优化,直接贡献于TCO的下降。你可以参考一些行业报告,比如中国电子技术标准化研究院发布的《数据中心可再生能源应用发展白皮书》,里面也提到了智能化运维对能效提升的关键作用。

AI能源管理平台数据看板

作为一家从2005年就开始专注新能源储能的企业,海集能在上海和江苏布局了研发与生产基地,我们深知,硬件是躯干,而智慧是灵魂。对于超算中心这样的能耗巨擘,一套高效的储能系统(无论是我们南通基地的定制化方案,还是连云港的标准化产品)是基础,但让它“活”起来,聪明地工作的,正是基于海量数据训练的AI运维大脑。它让能源从静态的成本中心,变成了可动态调度、可参与收益的资产。

所以,我的见解是,未来超算中心的竞争力,不仅在于每秒的浮点运算次数,更在于每焦耳能源所能驱动的有效计算量。AI运维,正是打通这两者的关键桥梁。它将能源流的控制,提升到与数据流、计算流同等重要的战略高度。这不再是一个简单的节能问题,而是一个关乎运营韧性、成本结构和可持续发展的核心战略。

那么,下一个值得思考的问题是:当你的超算中心开始用AI思考如何用电时,它所能释放的,除了成本空间,会不会还有新的商业模式与计算范式?我很想听听各位同行和实践者的想法。

作者简介

Karen Chen———毕业于浙大电气工程学院,海集能高级产品技术专家。专注通信站点能源与光伏储能领域,始终坚持以技术创新推动高效、可靠的能源解决方案落地。欢迎对光伏储能、站点能源感兴趣的朋友交流探讨。 手机: 13764881846,邮箱: [email protected], 在线沟通(免费)

汇珏科技集团成立于2002年,以"通信设备智造+储能系统集成"为双轮驱动。海集能(上海海集能新能源科技有限公司)是其旗下专注新能源储能的子公司,成立于2005年。海集能主营数字能源解决方案、站点能源设施产品及EPC服务,产品涵盖基站储能、储能电池、站点能源解决方案等,应用于工商业、户用、微电网及通信基站等领域。

——END——

相关文章

更多发布
在线咨询 电话联系