2025-07-30作者:大湾区国际数据中心大会暨展览会
在数字经济占GDP比重突破46%的今天(相当于全球超1/3经济活动完成数字化转型),AI算力需求正经历着惊人的"三级跳":ChatGPT的大火让智能算力需求年均暴涨76%,Sora视频生成模型更是将GPU集群功耗推向单机柜50kW的极限。这场算力革命已让传统风冷方案濒临淘汰临界点。
回望1946年第一台通用计算机ENIAC计算机的诞生,彼时数据中心还只是配有基本通风设备的"铁皮柜"。直到2005年中美同步出台数据中心国际标准,风冷技术才随着精密空调系统真正成熟。但当2024年的超算中心单机柜功耗已超50台家用空调总和时,液冷技术正式接过散热革命的接力棒。
当AI芯片的"马力"越来越强,这场始于机房角落的温度革命,或许正是解锁下一代计算奇点的关键钥匙。
给服务器散热到底有多花钱呢?有人可能不理解,服务器散热而已,能花几个钱?
有个专门用来衡量数据中心能效的指标——电能利用效率PUE(Power Usage Effectiveness),PUE的实际含义,是计算在提供给数据中心的总电能中,有多少电能是真正应用到IT设备上。PUE值越小,越接近1表明能效水平越好。其计算公式为:
PUE=数据中心总耗电 ÷ IT设备耗电
根据中国信息通信研究院的数据,2023年我国数据中心平均电能利用效率(PUE)为1.48,全球2023年平均PUE更是只有1.58。相当于说数据中心运行用100度电,其他环节就要损耗掉58度的电。以PUE为1.5的数据中心为例,其IT设备耗能约占67%,制冷系统约占27%,供配电系统约占5%,照明及其它约占1%。可以说,限制PUE提升最重要的影响因素就是服务器散热。
2023年我国算力中心总用电量约为1500亿千瓦时,按照PUE等于1.48来计算,就有400亿度电用在散热上,约等于三峡水电站半年的发电量。
受到传统硬件和现有设置及服务等级协议(SLA)的限制,现有的数据中心通常需要将温度冷却到18-21°C(64-69°F)之间,因此数据中心一年四季都需要制冷。冬季及过渡季节室外温度低于室内温度时,自然界存在着丰富的冷源。合理开发利用自然冷源是降低数据中心能耗,降低机房PUE的关键性措施。
自然冷却主要包括空气侧自然冷却技术,水侧自然冷却技术,氟侧自然冷却技术,以及二氧化碳载冷技术等。其中比较主流的是空气侧自然冷却技术和水侧自然冷却技术。
新风直接自然冷却作为最直接的自然冷却方式,可直接利用新风系统,将室外冷风供应到数据中心,减少换热流程。目前,新风直接自然冷却技术已经在部分地区得到了应用,如雅虎在纽约地区数据中心采用全新风自然冷却技术,PUE可达1.08。腾讯贵安七星数据中心利用贵州溶洞中的自然风达到降温的目的,经过特殊设计的山洞像一个巨大的空调,山洞外的冷空气从主洞口进入,经过制冷模块与IT设备热回风进行间接换热后,从竖井排出,既可以充分利用外部自然冷源,又避免了外界空气对设备的影响,其极限PUE将达到1.1左右。
直接水侧自然冷却技术应用也正稳步推广。直接水侧自然冷却系统直接抽取较为冷且恒定湖、海水等自然低温水,将冷却源直接引入数据中心,在冷却的过程中不对内部环境造成影响,可最大化使用自然冷源,取得良好的节能效益,受到业界关注。谷歌在芬兰的数据中心,依托临近芬兰湾的地理优势,冷却系统利用水下通道将海水运输至数据中心,并混合热水进行调温,以达到适合数据中心冷却的温度,年均PUE约为1.14。微软的“纳提克”海底数据中心研究计划,将服务器部署在钢制容器内,沉入苏格兰奥尼克附近的北海水域,利用海水冷却服务器以达到降低能耗的目的。
自然冷源选择需要考虑数据中心布局建设所在地的气候及温湿度条件等因素。我国华北、西北及东北等地区,室外气温低于10℃的天数全年占比可观,“东数西算”规划布局中,十个国家枢纽节点集群所在区域在气候环境都有比较优势,利用当地自然冷源不仅能够节省机械制冷的能耗,而且自然冷源供给充足、无污染,属于绿色冷源。
但实际上,并不是所有公司都有条件将数据中心建在四季凉爽或者能利用到自然冷源的地方,比如2023年我国华南地区和华中地区数据中心PUE均超过1.5,远高于全国平均水平。为了降低PUE,就需要提高散热效率。最典型最有效的做法就是从风冷散热转向为液冷散热。
风冷散热,其实就是通过强制对流和空调系统将服务器等设备产生的热量排出数据中心。主要依赖空气作为冷却介质,但是空气的导热和吸热的能力很差。空气被用来导热主要是因为空气极易获取,以及其流动性很好。但同样流动性很好且极易得的水,吸热和导热的性能就要远远超过空气,约为空气的20倍,如果采用一些导热性更好的液体材料,导热效率还能有一个跃迁。所以注定了液冷散热要远比风冷更加高效,也更加省电。
液冷技术将高比热容的液体作为热量传输媒介,直接或间接接触发热器件,缩短送风距离,传热路径短,换热效率高,是支撑高密度部署、应对节能挑战的重要途径。目前,冷板式液冷和浸没式液冷是数据中心行业应用的两种主流液冷技术。除此之外还有喷淋式液冷等技术。
冷板式液冷技术已形成相对成熟的解决方案。冷板式液冷作为非接触式液冷,通过液冷板将发热器件的热量间接传递给封闭在循环管路中的冷却液体带走热量。冷板式液冷对于服务器芯片组件及附属部件改动较小,主要途径为加装液冷模块,采用集中式或分布式CDU供液、Manifold分液,对芯片、内存等部件进行精准制冷。主要可分为部分冷板式、全冷板式以及冷板背门式。
(1)部分冷板式
部分冷板式是指仅在在发热部件(如CPU)上安装冷板,冷却液在冷板内部流动,带走热量。其优点是结构简单,易于部署。适用于现有服务器的改造,兼容性和灵活性都很强。但其仅对局部部件散热,整体散热效果有限,所以需要额外的风冷系统辅助。
(2)全冷板式
全冷板式是指在服务器的所有发热部件上安装冷板,实现全覆盖散热。其散热效果优于局部冷板式。适用于高功率密度场景。但是全冷板式系统较为复杂,成本较高。对服务器设计有较高要求。
(3)冷板背门式
冷板背门式是指在服务器机柜后门安装液冷散热模块,通过冷却液带走热量。其优点式无需改造服务器,部署灵活。可以在原有设备基础上进行升级,适用于中高功率密度场景。但由于没有直接接触发热部件,所以散热效率一般。且需要额外的管道和泵系统。
浸没式液冷是将发热电子元器件直接浸没在非导电冷却工质中,通过冷却工质循环流动来进行散热的接触式冷却技术,可实现100%液体冷却,散热节能优势明显,且几乎没有噪音。
浸没式液冷技术根据冷却液是否发生相变,分为单相和相变两种类型。
(1)单相浸没式液冷
单相浸没冷却(SPIC)指冷却剂仅以液态形式传热,通过冷却液与电子元件的直接接触进行热交换的液冷技术。在此热交换过程中冷却液仅温度发生变化而不存在相态转变,过程中完全依靠物质的显热变化传递热量。相较两相浸没式冷却,SPIC系统的换热特性略差,但在流动稳定性、投资成本、安全性和可维护性方面具有优势,其更适合大规模商业应用。
(2)相变式
相变浸没式液冷是以低沸点液体(如氟化液等)作为传热介质,将发热电子元件直接浸没于冷却液中,通过冷却液与电子元件的直接接触进行热交换的液冷技术。在此热交换过程中冷却液不仅温度发生变化相态也会发生变化,过程中主要依靠物质的潜热传递热量。因为冷却液相变潜热极大,相变浸没式液冷换热能力更大,可满足超高热流密度服务器散热需求,同时显著提升数据中心能效水平。
相变浸没式液冷系统主要由以下几部分组成:冷却介质、密封浸没腔体、液冷连接系统、液冷换热模块(CDM)和室外散热设备。将服务器放置于密封的浸没腔中,此时,服务器设备内所有发热电子元器件均需浸没在腔体的冷却介质中,服务器运行时发热器件会产生大量的热量,该热量会被冷却介质吸收;由于冷却液沸点较低,如FCM-47在47℃时沸腾,冷却液吸收热量后从液态转化为气态从而带走热量。气态冷却介质经过收集并回到CDM的冷凝器中,被冷却水冷凝,实现热量从蒸汽传递给冷却水,再经过一次侧冷却塔将冷却水携带的热量散发到室外,完成热量的传递(如下图所示)。二次侧冷却介质通过加热—沸腾—冷凝—回流进行循环,循环过程中相变浸没冷却系统温度恒定在冷却液的沸点,该沸点温度低于发热电子元器件的最高正常工作温度,继而使得冷却系统中的服务器的运行稳定。
喷淋式液冷通过将冷却液喷淋在散热元件上以直接带走其所释放的热量并排放至IDC外部环境的散热形式。喷淋液体能够完全覆盖服务器发热器件,同时根据不同发热器件的功率密度,可以对喷淋板上的液孔进行精准化开孔设计,以满足不同功率发热器件的散热需求。
算力攀升驱动数据中心液冷市场需求保持逐年增长的态势。业内多条液冷技术路线快速发展,针对不同应用场景各具优势。
但随着液冷技术的规模化应用,各类问题也逐渐暴露出来。例如:冷板式液冷水基工质泄漏导致设备短路烧毁;单相浸没式液冷散热能力受液体流速约束,散热能力表现较弱,无法满足更高功耗的CPU/GPU的散热需求;液冷系统制冷量未随负载变化及时调控,导致节能收益不明显;现阶段液冷数据中心的建设成本高等。这些均在一定程度上制约了液冷技术在数据中心领域的应用。
随着人工智能和高性能计算的爆发式增长,数据中心正在经历一场静默但深刻的散热革命。以下是关于未来发展的三个突破性猜想:
我们或将看到类似人体循环系统的"湿计算机"诞生。微软研究院已在研发具有形状记忆合金特性的微流体管路,这些直径不足1毫米的智能管道能根据芯片温度自主收缩膨胀,实现血流调控般的精准散热。混合量子-经典算法将实时解析106量级的热力学方程,使得20万升冷却液的流动轨迹可精确预测到微米级。
谷歌DeepMind与伦敦证券交易所合作的「ThermoCoin」项目揭示了未来图景:数据中心的余热将通过区块链确权,转化为可交易的数字资产。浸没式液冷系统中的相变潜热不再被浪费,而是成为驱动边缘计算节点的"热能蓄电池"。2028年冰岛热力交易所数据显示,单台H100 GPU的废热发电量即可支撑5个家庭全天的智能家居用电。
MIT近期在《自然・能源》披露的二维冰技术或将改写散热规则。当2.7纳米厚的水分子层在石墨烯表面形成规则晶格,其导热系数跃升至5300 W/m・K,远超当前商用液冷剂的200倍。更革命性的是,这种"量子冰"在电场调控下可实现固态-超流态瞬间切换,使单相液冷系统同时具备蒸发散热的相变优势。
在AI算力需求每18个月翻番的背景下,新一代数据中心冷却技术已不是单纯的热力学课题,而是关乎数字经济底座安全的国家战略能力。构建"材料创新-系统优化-标准引领"三位一体发展模式,将成为我们抢占数字制高点的关键战场。
@大湾区国际数据中心大会暨展览会 版权所有