上游为液冷系统零部件,中游为集成商。
1.液冷驱动因素一:液冷相比风冷单位成本下降,散热能力更好
高散热:液冷系统常用介质有去离子水、醇基溶液、氟碳类工质、矿物油或 硅油等多种类型;这些液体的载热能力、导热能力和强化对流换热系数均远 大于空气;因此,针对单芯片,液冷相比于风冷具有更高的散热能力。 低TCO:相比于传统风冷,液冷散热技术的应用虽然会增加一定的初期投资, 但可通过降低运行成本回收投资。根据中兴通讯测算,以规模为10MW的数据 中心为例,比较液冷方案(PUE1.15)和冷冻水方案(PUE1.35),预计2.2 年左右可回收增加的基础设施初投资。根据施耐德数据显示,在容量相同的 数据中心,按每机架20kW和每机架40kW的方式部署液冷时的投资成本比传统 风冷分别节省了10%和14%的投资成本。
液冷驱动因素二:算力功率密度提升,液冷逐步成为刚需
伴随着智算中心芯片功耗的提升,其自身的散热功耗也在不断攀升, 智算中心中单机柜的热密度大幅度的快速提升,因此,智算中心将面 临单机柜功耗高密化的挑战。 液冷将是智算中心高功率密度散热主要方案。智算训练需要建立高度 集中化的GPU集群,而智算中心GPU芯片的算力在不断提升,英伟达 B200芯片TDP功耗已达1000W,由一颗Grace CPU与两颗Blackwell GPU组成的GB200超级芯片达到了2700W;其GPU架构从Blackwell继 续进化为Rubin Ultra,Vertiv数据显示,AI GPU 机架的峰值密度有望 从2024年的130kW到2029年突破1MW,采用液冷技术是大势所趋。

液冷驱动因素三:全球数据中心能耗管控趋严,PUE考核趋严
碳中和背景下,主要国家和地区对数据中心的电能利用效率PUE等指标提出了更为严格 的要求,以我国为例,要求新建大型和超大型数据中心PUE降至1.25以内。 算力中心电力紧缺已成为初步共识,采用液冷降低PUE有望节约整体数据中心电能消耗。 目前,一个标准的风冷数据中心中,温控环节的能耗占比达到40%(主要为精密空调消 耗)。而算力中心对电力需求正在快速提升,需要降低单位算力能耗。通过液冷替代精 密空调有助于降低PUE,实现节约能耗的目的。PUE=(IT设备+制冷设备+供电设备+照明及其 它等设备)/IT设备能耗,即PUE越接近于1,则数据中心中的能耗将主要来源于IT设备(服务器、交 换机等)。
2.液冷产业链解析
液冷产业链分为上中下游: 上游:主要为一次侧、二次侧、ICT侧的液冷零部 件,包含冷却塔、冷水机组、CDU、Manifold、 UQD、液冷板等; 中游:通常采购或自产上游液冷零部件,对接下 游客户提供机房侧或者服务器侧的系统级液冷方 案; 下游:数据中心服务商、运营商、互联网大厂等。
3.商业模式:解耦交付大势所趋,标准化有助于行业成长
当前液冷交付模式包括一体化交付与解耦交付两种。服务器与机柜解耦 有利于促进行业标准形成,让更多厂商参与其中。一体化交付存在非原 厂商机柜与服务器不适配、机房管理中各厂家难以对接等问题。解耦交 付可形成统一标准规范,便于后续机房的灵活部署,有助于温控厂商与 服务器厂商协调合作,给客户更大的自由度选择不同服务器和机柜组合, 而不受限于某一供应商。
4.竞争格局—系统级:综合能力是关键,绑定芯片方案有先发优势
液冷系统集成复杂难度成倍提升,考虑到设备温控稳定性,系统级能力要求高。由风冷技术向液冷技术的转化过程中,系统集成复杂难度成倍提升,主要体现在:1)设计难度增大:需要同时融合传热、流体、材料等学科;2)供应商零部件差异明显:各个零部件的供应能力与匹配接口皆有差异,拉长系统开发时间,且无法达到系统最优;3)采购难度加大:供应链需要协调多个供应商同时交付,增加采购负担;4)后期运维难度显著提升:单一供应商不具有故障的系统解决能力。因此综合前期设计、后期运维的系统级能力成为液冷时期的壁垒。温控的产品优势显现具有后验属性,长期的运行稳定依赖材料的选择、CDU冷量分配软件的优化设计、后期运维能力等综合系统及能力。由于液冷系统复杂度提升,各环节的沟通协同有望进一步加强。液冷相较于风冷而言,与服务器的匹配度要求进一步提升,无论是冷板式服务器(要求液冷冷板匹配服务器型号)还是浸没式服务器,都需要服务器、液冷厂商、IDC企业(业主)共同参与到设计等环节。而当前阶段,绑定加速卡芯片厂商的公司具备显著的先发优势。
零部件:制造环节有一定壁垒
液冷系统涉及零部件较多,不同零部件设计生产难度不同。以冷板式液冷为例,系统关键零部件包括冷板、快接头、Manifold、CDU等。制造角度,冷板的制造难点在于针翅、微通道等定制化设计以确定合适的流速、流量、热阻等指标,但本身为机加工件,壁垒较低;快接头难点在于控制漏液问题;Manifold可采用316不锈钢+无缝焊接工艺;CDU核心部件为水泵+换热板,软件控制需具备及时响应高功率机柜等能力。