2025-11-20作者:大湾区国际数据中心大会暨展览会
当前,万卡级AI集群已成为算力产业竞争的高地。然而,行业内对于万卡集群的讨论,往往集中在功耗密度、液冷散热等单一技术指标上。事实上,建设万卡集群的挑战远不止于此——或者说本质并不在此。
从通用云计算向高性能AI训练转型,意味着数据中心的建设模式正经历一场从“物理基础设施”到“复杂系统工程”的深刻转型。设计理念、运营目标、工具体系等需要进行底层逻辑上的重构。
解耦与内聚
“高内聚低耦合”是一个软件工程概念,即好的软件结构应该是模块化的,模块内部功能联系紧密,模块间却要低耦合,接口标准又简洁。
其实在基础设施工程领域,这一概念也同样适用。传统数据中心的建设遵循“基础设施通用”逻辑,为适应不同客户的多样化需求,机房设计追求通用性与标准化:建筑、供电、暖通等设施与IT设备是“解耦”的。只要物理环境满足电力和温度标准,服务器可以任意部署。
但在万卡AI集群中,这一逻辑虽然还在,但面向的对象发生了很大变化。由于大模型训练对通信效率的极致追求,IT业务反向影响基础设施架构,原本解耦的基础设施和IT设备反而要求“内聚”起来。
最显著的变化体现在物理空间的布局上。在万卡规模下,GPU服务器之间需要通过InfiniBand或RoCE网络进行极高频的数据交换。为了降低延迟和布线复杂度,网络拓扑结构直接决定了机柜的物理排列。例如,受限于铜缆(DAC)的有效传输距离,服务器必须以交换机为中心进行高密度“簇状”部署,而非传统的“行列式”排列。
此外,电气设计也必须与业务负载深度协同。大模型训练具有明显的脉冲特征,在进行全员通信(All-Reduce)或检查点存档(Checkpoint)时,集群功耗会在毫秒级内发生剧烈波动。如果供电系统缺乏针对性的抗冲击设计,极易引发电压暂降甚至宕机。
因此,万卡集群的设计不再是单纯的建筑工程,而是需要IT架构师与机电工程师共同参与的系统工程。物理环境必须严格服务于算力系统的整体效率,而非仅仅提供一个放置设备的空间。
从持续到高效
在传统IDC运营体系中,核心指标是SLA(服务等级协议),通常以“全年可用性99.99%”来衡量。其关注点在于电力、网络和制冷的连续性——只要机柜不断电、不断网,运营即视为达标。
然而,对于AI大模型训练而言,这一标准已显滞后。AI训练是典型的紧耦合任务,成千上万张GPU协同工作。遵循“木桶理论”,任何一个节点的故障或性能降级,都可能导致整个训练任务的中断或停滞。
因此,运营的核心指标正在从“资源可用性”转向“算力有效性”。客户关注的焦点不再是机柜是否亮灯,而是单位时间内完成了多少有效训练量。
这一情形下,设备未损坏但性能下降比设备宕机更具破坏力。一张网卡的细微丢包或一颗GPU的降频,会拖慢整个集群。运营重点从“修复故障”转向了“消除短板”。运维人员需要了解AI训练的断点续训机制,针对性运维。
此外,在硬件发生不可避免的故障时,如何通过快速隔离和热迁移,将对模型训练进度的影响降至最低,成为新的运营必修课。
打破数据隔阂
随着设计逻辑与运营标准的改变,支撑算力中心的工具体系也面临重构。
长期以来,数据中心存在“两套账”:动环监控系统(DCIM)管理水电设备,IT运维系统管理服务器与网络。两者数据割裂,互不相通。在通用计算时代,这种分割是发展的必然。但在万卡集群中,这种状态有可能带来致命的危险。
首先传统的监控系统以及调控系统是滞后的,那怕通过智能管控实现了微秒级响应,也是IT业务先运转,水电系统后响应。而AI大模型训练的功率的脉冲特征,会让独立运作的运维系统疲于应对。
此外,当一个训练任务效率异常下降时,原因可能极其复杂。如果与环境相关,比如是冷冻水温的波动导致了GPU动态调频,进而引发了网络拥塞。要定位此类问题,必须打通设施层与IT层的数据壁垒,建立全景式的监控与调控。
因此,新一代的万卡智算中心管理平台,必然是全面同步了包括配电、制冷、气流管理、网络、芯片与内存占用等数据,实现从“告警响应”到“故障预测”,从“被动调控”到“协同响应”的跨越。
或许从某种角度上,我们应该把万卡集群视作一台实体的“超级计算机”。万卡AI集群的建设,并非传统数据中心的简单扩容,而是一场从理念到工具的全面革新。
@大湾区国际数据中心大会暨展览会 版权所有