• 实时要闻
  • 当前位置:首页 > 实时要闻
  • 传统数据中心到大规模集群,从设计到运营到底变了什么?

    2025-11-20作者:大湾区国际数据中心大会暨展览会

    当前,万卡级AI集群已成为算力产业竞争的高地。然而,行业内对于万卡集群的讨论,往往集中在功耗密度、液冷散热等单一技术指标上。事实上,建设万卡集群的挑战远不止于此——或者说本质并不在此

    从通用云计算向高性能AI训练转型,意味着数据中心的建设模式正经历一场从“物理基础设施”到“复杂系统工程”的深刻转型。设计理念、运营目标、工具体系等需要进行底层逻辑上的重构。

    解耦与内聚


    高内聚低耦合”是一个软件工程概念,即好的软件结构应该是模块化的,模块内部功能联系紧密,模块间却要低耦合,接口标准又简洁。

    其实在基础设施工程领域,这一概念也同样适用。传统数据中心的建设遵循基础设施通用”逻辑为适应不同客户的多样化需求,机房设计追求通用性与标准化:建筑、供电、暖通等设施与IT设备是“解耦”的。只要物理环境满足电力和温度标准,服务器可以任意部署。

    但在万卡AI集群中,这一逻辑虽然还在,但面向的对象发生了很大变化。由于大模型训练对通信效率的极致追求,IT业务反向影响基础设施架构,原本解耦的基础设施和IT设备反而要求“内聚”起来。

    最显著的变化体现在物理空间的布局上。在万卡规模下,GPU服务器之间需要通过InfiniBandRoCE网络进行极高频的数据交换。为了降低延迟和布线复杂度,网络拓扑结构直接决定了机柜的物理排列。例如,受限于铜缆(DAC)的有效传输距离,服务器必须以交换机为中心进行高密度“簇状”部署,而非传统的“行列式”排列。

    此外,电气设计也必须与业务负载深度协同。大模型训练具有明显的脉冲特征,在进行全员通信(All-Reduce)或检查点存档(Checkpoint)时,集群功耗会在毫秒级内发生剧烈波动。如果供电系统缺乏针对性的抗冲击设计,极易引发电压暂降甚至宕机。

    因此,万卡集群的设计不再是单纯的建筑工程,而是需要IT架构师与机电工程师共同参与的系统工程。物理环境必须严格服务于算力系统的整体效率,而非仅仅提供一个放置设备的空间。

    从持续到高效


    在传统IDC运营体系中,核心指标是SLA(服务等级协议),通常以“全年可用性99.99%”来衡量。其关注点在于电力、网络和制冷的连续性——只要机柜不断电、不断网,运营即视为达标。

    然而,对于AI大模型训练而言,这一标准已显滞后。AI训练是典型的紧耦合任务,成千上万张GPU协同工作。遵循“木桶理论”,任何一个节点的故障或性能降级,都可能导致整个训练任务的中断或停滞。

    因此,运营的核心指标正在从“资源可用性”转向“算力有效性”。客户关注的焦点不再是机柜是否亮灯,而是单位时间内完成了多少有效训练量。

    这一情形下,设备未损坏但性能下降比设备宕机更具破坏力。一张网卡的细微丢包或一颗GPU的降频,会拖慢整个集群。运营重点从“修复故障”转向了“消除短板”。运维人员需要了解AI训练的断点续训机制针对性运维。

    此外,在硬件发生不可避免的故障时,如何通过快速隔离和热迁移,将对模型训练进度的影响降至最低,成为新的运营必修课。

    打破数据隔阂


    随着设计逻辑与运营标准的改变,支撑算力中心的工具体系也面临重构。

    长期以来,数据中心存在“两套账”:动环监控系统(DCIM)管理水电设备,IT运维系统管理服务器与网络。两者数据割裂,互不相通。在通用计算时代,这种分割是发展的必然。但在万卡集群中,这种状态有可能带来致命的危险

    首先传统的监控系统以及调控系统是滞后的,那怕通过智能管控实现了微秒级响应,也是IT业务先运转,水电系统后响应。而AI大模型训练的功率的脉冲特征,会让独立运作的运维系统疲于应对。

    此外,当一个训练任务效率异常下降时,原因可能极其复杂如果与环境相关,比如是冷冻水温的波动导致了GPU动态调频,进而引发了网络拥塞。要定位此类问题,必须打通设施层与IT层的数据壁垒,建立全景式的监控与调控

    因此,新一代的万卡智算中心管理平台,必然是全面同步了包括配电、制冷、气流管理、网络、芯片与内存占用等数据,实现从“告警响应”到“故障预测”“被动调控”到“协同响应”的跨越。

    或许从某种角度上,我们应该把万卡集群视作一台实体的“超级计算机”。万卡AI集群的建设,并非传统数据中心的简单扩容,而是一场从理念到工具的全面革新。


    秦淮数据联合东阳光布局乌兰察布,打造全国首个超大规模绿电直供垂直一体化产业示范区 总投资25.85亿!庆阳又一零碳智算中心项目前期工作有序推进 字节跳动豪掷2664亿,TikTok将在巴西建拉美首个数据中心 世纪互联、光环新网、万国数据等12个项目入选!北京经开区2025数据中心白名单揭晓 投资估算33.98亿!招商银行贵安云数据中心产业园项目招标计划发布 把算力送上太空!我国发布太空数据中心建设规划方案 中美AI数据中心成本对比——“中国便宜60%”是真的吗? 投资9.7亿元、5000P,中电万界(青海)智算中心项目获建设工程规划许可证 投资15亿元、规划12000P,鹏银西北大数据产业园一期主体结构封顶 传统数据中心到大规模集群,从设计到运营到底变了什么? 北京市经开区12家数据中心白名单是怎样“出炉”的? 投资达180亿,13栋数据机房!中金数据中卫零碳算力产业基地一期项目建设全速推进 项目总投资25亿!新疆中芯数智绿能AI智算中心项目EPC总承包项目启动招标 约2.65亿!168台智算服务器、49台组网交换机,2025年联通数科启动集中采购招标 深度|当前智算中心面临的最大风险 投资百亿,阿里云智能临平数据中心D楼完成通水通电 进入新建设阶段 数据中心行业亟需诞生一个“新角色” 总投资约22.28亿!嘉唐科技绿电超算中心及风电项目签约落户黑龙江通河 【重大项目竣工速递】练塘工业园区08-01地块项目(青浦云湖数据中心)完工 总投资11.9亿元 濮阳大数据中心项目主体封顶 百亿“链主”落地!长三角·平湖润泽国际信息港项目(B区)正式竣工 约2.65亿!168台智算服务器、49台组网交换机,2025年联通数科启动集中采购招标 投资26.2亿元,孝感大数据产业园一期项目开工 规划机柜约2376个!中国电信(国家)数字青海绿色大数据中心二期项目正式开工 总投资9.5亿元,湖北移动襄阳云计算中心数字信息化服务项目开工 十五五规划建议:适度超前建设新型基础设施,深入推进数字中国建设 绿色发展驱动格局重塑,数据中心迈向“全生命周期”降碳新纪元 1.44E算力 全球首个生产级GB300 NVL72超算集群正式上线 预计投资91亿美元 字节跳动巴西数据中心即将开工 总投资158亿,杭钢与阿里合作的浙江云计算数据中心南区项目即将动工 存量0.3779元/kWh!河南“136号文”承接方案征求意见 连下三城!正泰交付菲律宾三大数据中心项目,中国企业开足马力扬帆“出海” 唐河油品:打造应急电力保障安全护盾,守护数据中心电力生命线! 中标价格约32亿!华峻云计算产业园区项目(一期)EPC招标结果公示 湖北出台“算网存用”新政:重金补贴算力建设,推动存算协同发展 能耗、成本、碳排三重压:智算中心如何借“算电协同”实现破局? 微软狂砸73亿美元建“全球最强AI数据中心”,将部署10万块英伟达GB200 唐河油品:打造应急电力保障安全护盾,守护数据中心电力生命线! 中卫市数据中心集群建设刷新进度条:智算规模占全国13.6%、八大枢纽节点17%! 聚焦算力设施场景应用 发改委、能源局印发《新型储能规模化建设专项行动方案(2025—2027年)》 估值3.3亿元,成都一处T3+数据中心将被司法拍卖 英伟达一个卖GPU的,开始对数据中心建设指手画脚了 崩溃了!数据中心绿电直连、直供到底怎么选? 数据中心锂离子电池室消防自动灭火系统改造设计 从电力保障到AI未来:科士达为马来西亚国家级AI数据中心提供核心动力支持 数据中心建设流程全解析 数据中心浸没式液冷用含氟冷却液应用研究进展 不同冷却系统对液冷数据中心节能性的影响——大湾区国际数据中心 破解数据中心供电难题,驱动服务器稳定、高效运行——大湾区国际数据中心 全国首个绿电聚合直供数据中心试点项目在甘肃庆阳开工建设——大湾区国际数据中心

    @大湾区国际数据中心大会暨展览会 版权所有

    粤ICP备2024291375号