• 实时要闻
  • 当前位置:首页 > 实时要闻
  • 观察|几万块GPU、毫秒级变化……AI算力需求对智算中心供配电冲击有多大?——大湾区国际数据中心

    2025-07-04作者:大湾区国际数据中心大会暨展览会

    641.jpg


    进入2025年,随着全球生成式AI(GenAI)应用的持续爆发,AI大模型训练和推理需求呈现了巨大跃升。Citi Research报告显示,当前AI推理生成的Token数量呈现了显著的激增态势,仅微软一家2025年一季度就处理了超过100万亿个 Token,是2024年同期的五倍。


    与此同时,AI训练带来的供配电系统问题同样不可小觑,正如Meta在Llama3论文中提到的,其拥有2.4万个H100集群(IT容量约30MW)在训练时,遇到了电力不稳定的持续挑战。


    与此同时,基于上述行业机遇与挑战,科智咨询联合中国通信工业协会数据中心委员会共同编制的《中国智算中心供配电系统应用市场研究报告(2025)》于近日正式发布。

    AI算力打破百年电力供应稳定关系


    给数据中心供电满足AI算力需求是一个异常复杂的系统工程。在全球交流电力系统中,各国住宅用电通常是单相交流电,但数据中心等工业用电通常采用三相电,每相电线又包含三根导线,三个振荡周期彼此错开运行。


    然而,电压和频率是电力系统中极易受影响的特性。如果电力供应和需求不平衡,电压和频率就会偏离设定值。供应超过需求时,电压和频率高于基准值;供应低于需求时,则低于基准值。仅仅10%的电压或频率波动就可能烧毁电机,跳闸,并使电子设备损坏。


    因此,过往全球百年,各国电网运营商的主要任务是保证电力质量,突显电网稳定性依赖于供需的稳定平衡,以及失衡的风险。一直以来,家庭用电需求相当可预测,大型用电负荷,如钢铁制造、芯片制造厂以及云数据中心通常都会产生稳定负荷。但生成式 AI的兴起彻底改变了这一现状。


    智算中心进行AI训练时负载剧烈波动成因分析


    在智算中心中的AI算力系统通常采用并行计算的方式运行,一次大规模GPU训练运行可能涉及数万乃至数十万个GPU同时工作。这种模式与传统的计算模式截然不同:从谷歌云发布的以下图表可以看出,智算中心与云数据中心的负载波动差异约为15倍,前者波动范围从1.5兆瓦到高达15兆瓦。

    be125232f120e84cd1bd09704f580259.png


    智算中心在进行AI训练时,数万个GPU(GPU)可能同时增加或减少功耗,例如,由于所有GPU等待checkpointing或collective communications完成,或整个训练作业启动或关闭。都会导致智算中心功耗瞬间波动,达到数十兆瓦(megawatts)量级,从而严重考验电网的承载能力。

    负载波动如此之大的原因有很多,包括:


    - 批处理过程中的毫秒级功率波动:在处理一个训练批次的过程中,矩阵计算会产生功率峰值,而数据传输和同步等较轻负载的操作则会导致功率下降。

    - checkpoint和restore操作 (通常持续几毫秒):在进行checkpoint操作期间,负载可能降至极低水平。

    - 同步 (最多几秒钟):当集群规模达到数十万级别时,AllReduce (一种用于在分布式系统中聚合数据的算法) 操作容易受到网络问题的干扰,有时会导致 GPU计算单元出现长达几秒钟的空闲状态。

    - 训练运行结束后:如果在一次大规模训练运行结束后,没有立即投入新的工作负载充分利用GPU算力,就会导致巨大的负载骤降。


    以上只是一些常见问题,并非所有问题的完整列表,更值得注意的是推理阶段所产生的电力负载变化问题同样显著。

    智算中心对电网的冲击日益加剧

    一直以来,电力供应都是通过同步变化进行管理。但要在几分之一秒内管理数百兆瓦的电力波动,对电力运营商而言是前所未有的挑战。

    电力供应变化通常涉及激活或停用发电机(electric generators),或调整发电机的输出功率(output)。发电机的调峰速率(ramp rate)以兆瓦每分钟 (MW/min) 为单位衡量,例如,调峰速率为10 MW/min的发电机,可在10分钟内将输出功率增加或减少100 MW。化石燃料发电机的调峰速率通常在5-50MW/分钟之间,而核电站的调峰速率则太慢,无法应对电网的瞬时变化(grid conditions)。

    通常情况下,亚秒级的电压和频率平衡是由系统惯性(system inertia)来维持的。传统电力发电机(electric generators)是大型旋转磁体,其旋转质量的惯性可以吸收电力供需之间的小幅波动,但这会产生额外的热量并降低效率。

    而当前越来越多的挑战源于不断变化的发电结构。越来越多的电力来自间歇性可再生能源,尤其是风能和太阳能。这些系统并不产生与电网同步的交流电,而是产生直流电(DC),再通过逆变器转换成交流电(AC),因此也给智算中心供配电带来了更多的问题。

    智算中心供配电系统的变革,其本质反映的是从“保障供电安全”到“极致能效与碳中和”的目标升级,具体可划分为以下4个阶段:5b35f298038873bc553c684414a444b1.png总之,在全球数字化浪潮和人工智能技术加速演进的时代背景下,智算中心日益成为各国新型信息基础设施建设的核心枢纽。随着大模型训练、生成式AI推理及高性能计算等应用需求的爆发式增长,单机柜功率密度迅速攀升,算力负载对电力系统的挑战空前严峻。从国际视角来看,高功率密度与高可靠性供电架构已成为智算中心竞争力的重要一环;而在中国“双碳”战略约束下,绿色低碳、能源协同也被赋予了新的内涵。面对能源结构转型与算力基础设施扩容的“双重驱动”,如何在保障超高可用性的同时兼顾能效与成本,已成为行业亟待破解的发展命题。

    在国内层面,以“东数西算”工程为代表的国家级算力网络正加快推进,各地政府、运营商和互联网巨头纷纷布局万卡乃至超万卡级智算集群,带来了数千兆瓦的新增电力需求。同时,《关于推动新型信息基础设施协调发展有关事项的通知》《数据中心绿色低碳发展专项行动计划》等政策相继出台,明确提出新建及改扩建项目要严格执行节能审查、绿电占比超80%、PUE≤1.2等要求 。在此背景下,智算中心供配电系统正从“支撑系统”转变为制约算力发展的“瓶颈环节”,亟需在高压化、直流化、模块化和智能化等方向上实现跨越式升级。

    基于上述行业机遇与挑战,科智咨询联合中国通信工业协会数据中心委员会共同编制《中国智算中心供配电系统应用市场研究报告(2025)》,旨在系统揭示中国智算中心供配电系统的演进逻辑与实践路径。研究将从产业图谱构建、市场规模与竞争格局、技术创新趋势及优秀案例四大维度展开,聚焦高功率密度供电架构设计、端到端能效优化、绿色低碳集成以及智能化运维,实现对行业痛点的深度剖析与未来发展方向的前瞻预判,为政府、运营商、算力服务商及设备厂商提供决策参考与技术指引。


    报告核心观点


    一、算力需求驱动电力系统重构

    单机柜功率密度已突破20kW门槛,AI推理与训练的动态负载特征,要求供配电系统具备更高的瞬态响应与过载能力。


    市场规模高速增长,CAGR近46%

    2024年市场规模239.7亿元,同比增长超100%;预计2027年将攀升至610.4亿元,年复合增长率约45.9%。


    HVDC与预制化模块并行,加速交付与效率提升

    高压直流架构可实现端到端效率提升5%–20%;预制化电力模块现场工期可缩短逾60%,支持按需弹性扩容。

    04

    绿色低碳与“算电协同”并重

    政策推动绿电占比≥80%,锂电储能、光伏直供与用能侧智能调度共同助力PUE降至1.2以下。


    国产品牌加速崛起

    在UPS、变压器等核心设备领域,国产品牌通过自动化生产、全网化服务与质量管控,市场份额稳步提升。


    从单体设备到端到端解决方案

    客户采购决策已从关注设备可靠性,转向系统级能效、数字运维与全生命周期成本管控,对“一站式”集成交付与运维保障提出更高要求。

    07

    未来展望——智能化与模块化深度融合

    随着AI驱维、数字孪生与预制化技术成熟,未来供配电系统将由“被动支撑”升级为“主动赋能”,成为算力网络稳定性与效能提升的核心引擎。


    @大湾区国际数据中心大会暨展览会 版权所有

    粤ICP备2024291375号