传统数据中心到大规模集群，从设计到运营到底变了什么？-大湾区数据中心大会暨展览会-官网

传统数据中心到大规模集群，从设计到运营到底变了什么？

2025-11-20作者:大湾区国际数据中心大会暨展览会

当前，万卡级AI集群已成为算力产业竞争的高地。然而，行业内对于万卡集群的讨论，往往集中在功耗密度、液冷散热等单一技术指标上。事实上，建设万卡集群的挑战远不止于此——或者说本质并不在此。

从通用云计算向高性能AI训练转型，意味着数据中心的建设模式正经历一场从“物理基础设施”到“复杂系统工程”的深刻转型。设计理念、运营目标、工具体系等需要进行底层逻辑上的重构。

解耦与内聚

“高内聚低耦合”是一个软件工程概念，即好的软件结构应该是模块化的，模块内部功能联系紧密，模块间却要低耦合，接口标准又简洁。

其实在基础设施工程领域，这一概念也同样适用。传统数据中心的建设遵循“基础设施通用”逻辑，为适应不同客户的多样化需求，机房设计追求通用性与标准化：建筑、供电、暖通等设施与IT设备是“解耦”的。只要物理环境满足电力和温度标准，服务器可以任意部署。

但在万卡AI集群中，这一逻辑虽然还在，但面向的对象发生了很大变化。由于大模型训练对通信效率的极致追求，IT业务反向影响基础设施架构，原本解耦的基础设施和IT设备反而要求“内聚”起来。

最显著的变化体现在物理空间的布局上。在万卡规模下，GPU服务器之间需要通过InfiniBand或RoCE网络进行极高频的数据交换。为了降低延迟和布线复杂度，网络拓扑结构直接决定了机柜的物理排列。例如，受限于铜缆（DAC）的有效传输距离，服务器必须以交换机为中心进行高密度“簇状”部署，而非传统的“行列式”排列。

此外，电气设计也必须与业务负载深度协同。大模型训练具有明显的脉冲特征，在进行全员通信（All-Reduce）或检查点存档（Checkpoint）时，集群功耗会在毫秒级内发生剧烈波动。如果供电系统缺乏针对性的抗冲击设计，极易引发电压暂降甚至宕机。

因此，万卡集群的设计不再是单纯的建筑工程，而是需要IT架构师与机电工程师共同参与的系统工程。物理环境必须严格服务于算力系统的整体效率，而非仅仅提供一个放置设备的空间。

从持续到高效

在传统IDC运营体系中，核心指标是SLA（服务等级协议），通常以“全年可用性99.99%”来衡量。其关注点在于电力、网络和制冷的连续性——只要机柜不断电、不断网，运营即视为达标。

然而，对于AI大模型训练而言，这一标准已显滞后。AI训练是典型的紧耦合任务，成千上万张GPU协同工作。遵循“木桶理论”，任何一个节点的故障或性能降级，都可能导致整个训练任务的中断或停滞。

因此，运营的核心指标正在从“资源可用性”转向“算力有效性”。客户关注的焦点不再是机柜是否亮灯，而是单位时间内完成了多少有效训练量。

这一情形下，设备未损坏但性能下降比设备宕机更具破坏力。一张网卡的细微丢包或一颗GPU的降频，会拖慢整个集群。运营重点从“修复故障”转向了“消除短板”。运维人员需要了解AI训练的断点续训机制，针对性运维。

此外，在硬件发生不可避免的故障时，如何通过快速隔离和热迁移，将对模型训练进度的影响降至最低，成为新的运营必修课。

打破数据隔阂

随着设计逻辑与运营标准的改变，支撑算力中心的工具体系也面临重构。

长期以来，数据中心存在“两套账”：动环监控系统（DCIM）管理水电设备，IT运维系统管理服务器与网络。两者数据割裂，互不相通。在通用计算时代，这种分割是发展的必然。但在万卡集群中，这种状态有可能带来致命的危险。

首先传统的监控系统以及调控系统是滞后的，那怕通过智能管控实现了微秒级响应，也是IT业务先运转，水电系统后响应。而AI大模型训练的功率的脉冲特征，会让独立运作的运维系统疲于应对。

此外，当一个训练任务效率异常下降时，原因可能极其复杂。如果与环境相关，比如是冷冻水温的波动导致了GPU动态调频，进而引发了网络拥塞。要定位此类问题，必须打通设施层与IT层的数据壁垒，建立全景式的监控与调控。

因此，新一代的万卡智算中心管理平台，必然是全面同步了包括配电、制冷、气流管理、网络、芯片与内存占用等数据，实现从“告警响应”到“故障预测”，从“被动调控”到“协同响应”的跨越。

或许从某种角度上，我们应该把万卡集群视作一台实体的“超级计算机”。万卡AI集群的建设，并非传统数据中心的简单扩容，而是一场从理念到工具的全面革新。

传统数据中心到大规模集群，从设计到运营到底变了什么？

活动聚焦

联合主办

承办单位

联系我们