新闻动态

你的位置:意昂体育 > 新闻动态 >

液冷技术路线及零部件拆解:以核心零部件为基础,迈向一体化交付

发布日期:2025-07-10 16:57点击次数:142

液冷以冷却液为媒介带走设备产生的热量,在处理高负载任务时保持设备的稳定性、提高系统能效。根据冷却液是否与电子器件直接接触,液冷技术分为直接式液冷和间接式液冷。间接式液冷以冷板式为代表,冷却液流经 CPU/GPU 顶部的冷板,IT 设备与冷板交换热量,电子元器件不与冷却液直接接触;直接式液冷以浸没式为代表,服务器完全或部分浸入绝缘冷却液中。

根据冷却液在散热时是否有形态上的变化,液冷技术又可以分为单相和两相,其中单相指冷却液始终以液体的形式循环,两相是指冷却液在吸热时发生气液相变,从而获得更大的进出温差,在散热方面优于单相。

一、冷板式液冷——大规模及存量数据中心改造主流方案

通用的液冷系统架构由三个主要的要素构成,分别是一次侧(室外)的冷源、二次侧(室内)的热捕获形式和冷量分配单元 CDU。基于以上要素,冷板式液冷系统的原理即冷却液通过冷板捕获芯片热量后,输入至 CDU 与一次侧交换热量,最后通过冷却塔等设施输出至外界环境,完成散热。

通常由冷量分配单元 CDU、冷板、循环管路、快接头 UQD 和分水器 Manifold 等组成;一次侧回路位于数据中心外部,主要包括室外散热单元、一次侧水泵、定压补水装置和管路等。

1、冷量分配单元 CDU:冷板式液冷系统的“心脏”

二次侧是冷板式液冷的核心部分,其中 CDU 承担着一次侧与二次侧回路之间的热量交换与工质管理功能,由换热器、二次侧水泵、管路组件、传感器、配电控制箱等主要部件与过滤器、稳压装置、自动补液装置等辅助功能模块组成,其工作原理是通过内部的换热器将二次侧吸收的高温冷却液与一次侧的冷冻水等介质进行热交换。

作为二次侧冷却的核心环节,CDU 机组的主要性能取决于循环泵和热交换器的性能。CDU 中的水泵起液体流量输出的作用,在一定的流速范围内,单位时间流经散热区域的液体量越多,可携带的热量越大,散热效果越好。水泵的核心参数包括流速、扬程参数、功率效率比:随着智算中心 IT 系统的 TDP 增大,CDU 的流速设计需要随之提高;水泵设计具备一定的扬程参数以克服管路的阻力损失,保证冷却液的稳定流速;功率效率比直接影响 PUE,采用磁浮轴承技术的水泵由于摩擦导致的能量损失较小,比传统机械轴承方案节能 30%以上。

热交换器决定了 CDU 的冷却能力,根据一、二次侧的冷却介质分为液-液(L2L)热交换器和风-液(L2A)热交换器,顾名思义,液-液热交换器用于全液冷系统,一次侧、二次侧冷却液在间壁式换热器内部被壁面分开的独立空间中流动,通过流体对壁面的对流和导热进行换热,根据结构可分为管式、板式等形式。

考虑到部分存量数据中心的改造需求,风-液换热器可以满足一次侧风冷、二次侧液冷的组合,为传统数据中心提供更通用、易于实施的冷却方案。一次侧方向通过风扇将环境温度的空气吹过流入热交换器且携带芯片热量的二次侧冷却液,将热量带至外界环境。

根据 CDU 在数据中心的设计位置,可分为集中式 CDU 和分布式 CDU。集中式 CDU 位于机柜外,可同时服务多台服务器机柜,为提高系统的可靠性,二次侧 CDU 一般按不低于 N+1 的规模进行配置;分布式 CDU 位于机柜内,仅服务所在机柜的服务器,适用于规模较小的液冷数据中心。

2、冷板:二次侧热交换的“起源”

冷板是直接承担热捕获的组件,其核心功能是将服务器中 GPU 等高发热部件的热量,通过金属基导热材料精确、高效地传递给流动的冷却液,从而保障芯片在高功率密度运行时温度保持稳定,因此通常由铜或铝等高导热金属加工而成。结构上,冷板的底面平整度与微观粗糙度直接影响与芯片接触界面的热阻,内部空心通道结构决定流体力学性能及热量捕获效率,结构上看,冷板由热源对接面、内部流体通道和进出口接口三部分构成:1) 对接面:通过涂抹高性能导热膏与器件背部紧密贴合,使界面热阻最小化;2) 内部流道:流动传热模型的主要研究对象,不同的微通道冷板可以实现不同的冷却效果,内部形状丰富,通常为翅片结构;3) 进出口接口:一般为标准化快接头,既要保证低压损、高密封性,又要便于快速维护和更换。

评估冷板性能的两个核心指标:压降和热阻。液冷板的压降是指在液体通过内部微通道时产生的阻力损失,当压降达到一定值时,冷却液的流速减缓,进而影响液冷板的换热效率和冷却能力。热阻是指冷板两端的温度差(冷端-热端)与热流量的比值,热阻越低,冷却效果越好。

以上两个指标除了与冷板微通道结构设计相关,还可以通过相变技术优化,使用沸点较低的冷却剂,利用其吸热蒸发的相变过程实现散热,两相液冷技术除了能吸收更大的潜热外,还可以使冷却液在流经多个处理器时保持稳定且持续的冷却效果,由于蒸发过程不受液体流动方向的影响,每个处理器都能被单独且有效冷却。

两相冷板能为所有热源提供均匀的冷却

来源:《Innovative Two-Phase Cold Plate Solutions for Future High-Power AI Chips》,国金证券研究所,思瀚

3、冷源:一次侧冷量供应“上游”

液冷系统冷源位于一次侧,是热传递至环境的最后一个过程,也是整体冷量的来源。冷源冷却方式的选择主要取决于二次侧末端设备对温度的需求。

自然冷却系统即将外界环境温度作为免费冷量,通过开式冷却塔/闭式冷却塔/干冷器或泵驱两相系统等设备直接利用自然冷源,为系统提供冷却水循环。干式冷却塔与闭式冷却塔的主要差异点在于循环水是否直接与空气接触;干冷器顾名思义不通过液体蒸发散热,通过空气强制对流带走热量,可以简单理解为去除循环水的闭式冷却塔。

机械制冷系统依靠带有压缩机的直膨系统提高制冷效率,压缩机将冷媒加热至高温高压状态,经过冷凝器冷却、膨胀阀降压后即可得到低温冷媒,根据冷却冷媒的不同方式,可以分为风冷冷水机和水冷冷水机,分别通过空气和水对冷媒进行冷却。风冷冷水机组依托风扇,通过空气直接带走冷凝器释放的热量实现冷媒冷凝,向下游设备提供冷冻水。

风冷冷水机组结构简单、安装方便,无需冷却塔、水泵及水路管道系统,适合水源不足的场合,但冷凝温度受室外环境温度限制,能效较低且噪声大。水冷冷水机组与风冷冷水机组主要在冷凝器部分存在差异,通过冷却塔水循环实现冷媒冷凝,制冷效率更高,稳定性更强,但初期投资与维护成本较高,耗水量大。

数据中心考虑节约能源一般会优先采用自然冷源,但自然冷源受当地气候和资源影响较大,存在不确定性,为了制冷系统的稳定运行,根据数据中心当地温度及进液温度需求,采用机械冷源和自然冷源切换使用的模式也较为常见,在气温较低的季节主要采用自然冷源,而气温较高时主要采用机械冷源,例如 xAI Colossus 数据中心就同时采用了开式冷却塔与风冷冷水机组作为一次侧冷源。

4、其他核心零部件:定制化程度较高

(1)Manifold:冷却液分配“管家”

Manifold 是冷板式液冷回路中衔接 CDU 与服务器冷板的分配枢纽,由一对供液/回液主管和多个节点组成,冷却液由 CDU 泵送进入供液管,再经若干节点连接管路送至每块服务器冷板,吸热后返回节点并汇集到回液管,最终返回 CDU,形成闭式循环。

Manifold 需要具备高强度和耐腐蚀性,通常选用高强度不锈钢进行制造。数据中心可以根据服务器数量和内部空间来选择定制不同规格的 Manifold,分支口数量和分支口间隔都可以进行个性化调整。

(2)快接头:液冷循环系统的防漏水“小关节”

快接头用于 Manifold 与服务器的连接,节点之间的连接与关断,由公头与母头配合,内部集成密封件、弹簧、锁紧机构和导向槽等部件,能够在带液带压状态下实现瞬时插拔而不滴漏。材料上多选用耐腐蚀的不锈钢或硬质阳极化铝合金,兼顾机械强度、轻量化和成本考量。快接头按插拔方式可分为手插式快接头和盲插式快接头。

手插式快接头一般配套管路,快接头用于管路两侧与 Manifold、服务器的连接,需要运维人员手动对准并锁定;而盲插式快接头则将公头和母头分别安装在服务器背侧和 Manifold 上,在将服务器通过导轨插入至机柜时,快接头自动完成对接,管路位于服务器内部,将冷却液运输至冷板。

盲插式快接头在可靠性、可维护性、可安装性、架构演进性等多个方面体现出优越性,为了在有限空间内堆叠更多 GPU,数据中心往往需要紧凑布线,维护通道狭小,盲插快接头无需人工对准、插拔迅速且对空间要求低,可显著降低运维难度,满足自动化巡检或更换冷板的需求。

盲插式快接头由于被固定在服务器上,需要与机柜、Manifold 等进行适配,难以与机柜解耦,因此往往在整机柜方案中被使用。2019 年,华为在整机柜产品中首次应用后,越来越多的厂商开始选择盲插式快接头,英伟达在 GB200 NVL72 中也采用了盲插式快接头的设计,随着大规模、多机架数据中心的落地,盲插式快接头有望进一步渗透市场。

(3)管路:液冷系统的“血管”

冷却管路是冷却液及热量运输的主要通道,管路材料的选择关系到整体系统的可靠运行,要求耐腐蚀、防泄漏、寿命长、与冷却液适配性,常见的管路类型分为软管、金属管,软管主要材料包括三元乙丙橡胶(EPDM)、氟化乙烯丙烯(FEP)、聚四氟乙烯(PTFE),金属管主要材料为不锈钢。

(4) 冷却液:液冷系统的“血液”

在冷却液选择方面,冷板式液冷多使用水基冷却液,具备导热性强、成本低、工艺成熟等优势,适用于单相液冷系统;两相冷却系统则通常选用低沸点的碳氟类冷却介质,换热效率更高,但对密封和系统复杂度要求较高。目前单相冷板仍是主流,其中华为、曙光、 超聚变以 25%乙二醇溶液为主,浪潮、新华三以 25%丙二醇溶液为主。

5、 一体化交付为当前主要模式

目前冷板式液冷是国内交付体量最大、应用最成熟的液冷方式,从风冷方案过渡改造的变动最少,相较于其他液冷方案价格更低,是当前数据中心的液冷首选。当前液冷系统的交付模式主要分为三种:

仅交付“液冷服务器”;

交付“液冷服务器+液冷机柜”;

“液冷服务器+液冷机柜+CDU+二次侧管路”一体化交付。

考虑到当前 OEM/ODM 厂商液冷系统偏向定制化,不同厂商生产的组件在连接方式和与冷却工质的适配度上存在差异,因此为减少数据中心现场安装和配置的工作量、加快数据中心建设速度,厂商往往更倾向于选用一体化交付方案,实现快速部署;液冷系统各零部件之间的兼容性由同一方案商解决,也有利于为数据中心提供更加快捷、完善的质保服务,方便后期运维工作。“液冷服务器”或“液冷服务器+液冷机柜” 这类解耦化的方案虽然仍存在组件兼容性的问题、交付较少,但灵活性更强,适用于更加标准化的液冷生态发展。

二、浸没式液冷——二次侧结构更加简单,冷却液选择是关键

浸没式液冷是将发热的电子元器件完全浸没在绝缘冷却液中,通过液体的高热容量和导热性能实现热量的快速捕获与传导。浸没式冷却系统的通用架构与冷板式一致,二次侧由冷却池(Tank)、冷却液、热交换器(CDU)和循环泵组成。

浸没式与冷板式在材料和架构上的变化主要在于:

二次侧结构更加简单。浸没式液冷仅依赖一个密封的浸没槽、循环泵与热交换单元即可支撑成百上千节点的统一冷却,不需要为 CPU、GPU 等高发热部件定制冷板、manifold、快接头等部件,极大简化系统集成和现场施工难度,减少潜在的泄漏风险和维护工时。

冷却液材料选择更加谨慎。冷却液是影响浸没式液冷冷却性能的关键,从材料来看,常见的冷却液分为氟化液、油类(矿物油、硅油、合成油)两大体系;从吸热过程是否发生相变来看,冷却液的沸点是选择的主要依据,单相浸没液冷需要选择高沸点的油类冷却液,防止冷却液在升温状态下挥发,两相浸没液冷则通常选择低沸点的氟化液。虽然两者在性能上各有千秋,但值得注意的是,由于环境破坏问题,欧盟提出在 2028年之前全面禁用全氟烷基和多氟烷基物质,美国多州出台氟禁令,从国际环保趋势来看,数据中心或将被限制大量使用氟化液作为冷却工质。

与数据中心 IT 设备的兼容要求提高。服务器中除了 GPU、CPU 外,存储器也是重要的单元之一,主要的存储设备包括传统机械硬盘(HDD)和固态硬盘(SDD),根据西部数据统计,HDD 仍然是数据中心的主要存储方案,但在浸没式液冷中,冷却液通过呼吸孔流入机械硬盘内部将导致硬盘损坏,因此 HDD 无法直接置于冷却液中工作,相对而言 SDD 的兼容性更高。此外,冷却液是否会与服务器材料发生物理、化学反应也是考量因素之一,例如研究显示油浸服务器组件在运行 6 个月后明显褪色,虽然对机械可靠性不造成直接影响,但可能会限制对部件的识别。

三、喷淋式液冷——定点高效散热方案

喷淋式液冷是一种直接接触式液冷技术,冷却液通过重力或系统压力直接喷淋在服务器CPU、GPU 等高发热部件表面或相连的导热材料上,实现点对点的高效热量捕获与传导。在通用液冷架构下,喷淋式液冷二次侧由热交换器(CDU)、分液管(manifold)、喷淋液冷机柜和循环泵组成。

喷淋式与冷板式在材料和架构上的变化主要在于:1) 无相变模式。冷却液从 manifold→微型喷嘴→IT 设备→收集排出机柜始终以液体的形式循环,且由于冷却液直接接触芯片,因此需要选择高沸点、绝缘导热、抗氧化的冷却工质。2) 点对点精准布置。喷淋液冷系统可以根据服务器发热体位置和发热量大小,对布液板做精准设计,使冷却液以按需供给且流量可控的方式精准喷淋到发热部件上。

Powered by 意昂体育 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024