2025年通信行业专题报告:数据中心互联技术专题五,液冷—智算中心散热核心技术

  • 来源:国信证券
  • 发布时间:2025/09/29
  • 浏览次数:334
  • 举报
相关深度报告REPORTS

通信行业专题报告:数据中心互联技术专题五,液冷—智算中心散热核心技术.pdf

通信行业专题报告:数据中心互联技术专题五,液冷—智算中心散热核心技术。AI时代数据中心热密度加速提升,液冷正在成为智算中心主流散热技术。AI时代算力芯片功率持续提升,设备功率密度触及传统风冷降温方式极限,液冷与风冷技术相比,具有温度传递快、带走热量多、噪音低和节能、节省空间的优势;同时,全球各地区PUE考核均有趋严趋势,液冷渗透率有望持续提升。液冷通用架构可分为机房侧(包括一次侧设备和二次侧设备)以及ICT设备侧(如冷板模组等),二次侧设备包括Manifold、CDU、管路、动环系统等,一次侧设备主要包括室外冷水机组。当前阶段,液冷应用主要采用冷板式技术;例如英伟达最新商用B系列G...

一、算力功率密度提升,液冷是未来散热温控主要技术

液冷:未来智算中心的核心散热技术

液冷与风冷技术相比,具有温度传递快、带走热量多、噪音低和节能、节省 空间的优势。 英伟达最新商用GB200系列及以后技术均采用冷板液冷技术散热,100%全液 冷架构,液冷覆盖CPU,GPU,内存等核心部件。

智算中心液冷系统图解

液冷系统通用架构可拆解为机房侧和ICT设备侧两部分,机房侧可进一步分为一次侧和二次侧两部分,浸没式和冷板式液冷在机房侧架构基本相同,差异主要在ICT设备侧:一次侧:包含冷却塔、一次侧管网、一次侧冷却液(通常为水)。室外侧为外部冷源,通常为室外的冷水机组、冷却塔或干冷器,热量转移主要通过水温的升降实现;二次侧:包含CDU、液冷机柜、二次侧管网和二次侧冷却液。室内侧包括供液环路和服务器内部流道,主要通过冷却液温度的升降实现热量转移;两个部分通过 CDU中的板式换热器发生间壁式换热;ICT设备侧:浸没式采用Tank安装制冷工质,ICT设备浸于其中;冷板式主要采用冷板贴于核心热源(CPU、GPU、内存)等上方。 制冷工质的选择:冷板式通常采用乙二醇/丙二醇溶液(基于防冻考虑)或去离子水;浸没式通常采用氟化液、矿物油(如硅油)等。

液冷驱动因素一:液冷相比风冷单位成本下降,散热能力更好

高散热:液冷系统常用介质有去离子水、醇基溶液、氟碳类工质、矿物油或 硅油等多种类型;这些液体的载热能力、导热能力和强化对流换热系数均远 大于空气;因此,针对单芯片,液冷相比于风冷具有更高的散热能力。 低TCO:相比于传统风冷,液冷散热技术的应用虽然会增加一定的初期投资, 但可通过降低运行成本回收投资。根据中兴通讯测算,以规模为10MW的数据 中心为例,比较液冷方案(PUE1.15)和冷冻水方案(PUE1.35),预计2.2 年左右可回收增加的基础设施初投资。根据施耐德数据显示,在容量相同的 数据中心,按每机架20kW和每机架40kW的方式部署液冷时的投资成本比传统 风冷分别节省了10%和14%的投资成本。

液冷驱动因素二:算力功率密度提升,液冷逐步成为刚需

伴随着智算中心芯片功耗的提升,其自身的散热功耗也在不断攀升, 智算中心中单机柜的热密度大幅度的快速提升,因此,智算中心将面 临单机柜功耗高密化的挑战。 液冷将是智算中心高功率密度散热主要方案。智算训练需要建立高度 集中化的GPU集群,而智算中心GPU芯片的算力在不断提升,英伟达 B200芯片TDP功耗已达1000W,由一颗Grace CPU与两颗Blackwell GPU组成的GB200超级芯片达到了2700W;其GPU架构从Blackwell继 续进化为Rubin Ultra,Vertiv数据显示,AI GPU 机架的峰值密度有望 从2024年的130kW到2029年突破1MW,采用液冷技术是大势所趋。

液冷驱动因素三:全球数据中心能耗管控趋严,PUE考核趋严

碳中和背景下,主要国家和地区对数据中心的电能利用效率PUE等指标提出了更为严格 的要求,以我国为例,要求新建大型和超大型数据中心PUE降至1.25以内。 算力中心电力紧缺已成为初步共识,采用液冷降低PUE有望节约整体数据中心电能消耗。 目前,一个标准的风冷数据中心中,温控环节的能耗占比达到40%(主要为精密空调消 耗)。而算力中心对电力需求正在快速提升,需要降低单位算力能耗。通过液冷替代精 密空调有助于降低PUE,实现节约能耗的目的。PUE=(IT设备+制冷设备+供电设备+照明及其 它等设备)/IT设备能耗,即PUE越接近于1,则数据中心中的能耗将主要来源于IT设备(服务器、交 换机等)。

目前液冷散热技术主要分为冷板式、浸没式及喷淋式

液冷主要可分为冷板式、浸没式、喷淋式三大类。按照接触方式,液冷主要可分为冷板式、浸没、喷淋式三大类。其中,按照是否相变,冷板式液冷可分为单相冷板式液冷、两相冷板式液冷,浸没式液冷可分为单相浸没式液冷、相变浸没式液冷。

冷板式液冷是目前主流方案

冷却液不直接接触电子器件。冷板式液冷技术通过冷板将发热元器件的热量间接传递给封闭在循环管路中的冷却液体,通冷却液体将热量带走。这种技术下,工作液体与电子器件不直接接触,而是通过液冷板等高效导热部件将被冷却对象的热量传递到冷却液中。 特点:冷板式液冷兼容性强、易于维护,但存在节能收益不显著、标准化难度大的问题。冷板式液冷能够有效兼容现有硬件架构、易于开展维护设计,且由于液体和设备不直接接触,可靠性更高。但由于未实现100%液体冷却,因此存在机柜功耗低、液冷占比低时,节能收益不显著问题;且液冷板设计需要考虑现有设备的器件布局,结构设计和实现的难度较大,标准化推进难度大。

冷板式发展方向——微通道:高集成度,冷却液更贴近芯片

MLCP技术(Micro-Channel Liquid Cooling Plate),即微通道水冷板,通过将传统 上覆盖在芯片上的金属盖和上方的液冷板整合成一个单元,内部通过蚀刻工艺,形成 微通道,使得冷却液直接流经芯片表面。MLCP的核心特征有2个:内部结构的微型化:通过在封装表面进行蚀刻工艺,将传统散热器中毫米级的流 道,缩小至微米级别(例如30-150微米)。这样提高了热交换效率。 高度集成化:将传统上分离的多个组件整合为单一单元(包括均热板、水冷板、 芯片封装盖板IHS,整合在一起),这种设计最大程度地减少了导热界面材料 (TIMs)的使用,使得冷却液可以更直接、高效地带走芯片产生的热量。 MLCP的单价可达传统水冷板的3~5倍,且能贡献较高的毛利率。以GB300架构为例,一 个机柜需要108+18个MLCP,假设报价约800-900美元/块。 微软开发微流体冷却技术:9月23日,微软首席执行官萨提亚·纳德拉宣布,其团队 已成功开发出微流体冷却技术——通过细如发丝的微小通道,直接将冷却液输送到芯 片内部。微流体冷却技术的散热效率比现有散热板高出三倍,能将芯片最高温升(电 子设备中各个部件高出环境的温度)降低65%。

二、液冷应用渗透加速,全球市场规模有望超百亿美元

散热成本占比数据中心整体成本超20%,液冷有望进一步提升

数据中心基础设施建设成本中冷却系统成本占比约20%-25%。新建数据中心,包括设施运营中使用的必要基础设施和组件,通常可分为四个主要类别:1)土地和建筑外壳(15%-20%):建筑外壳、活动地板;2)电气系统(40%-45%):备用发电机、电池、配电装置(PDU)、不间断电源(UPS)、开关设备/变压器;3)HVAC/机械/冷却系统(20%-25%):机房空调(CRAC)、机房空气处理器(CRAH)、风冷式冷水机组、冷冻水储存和管道;4)建筑装修(15%-20%):大堂/入口、会见室 (MMR)、发货和接收区域。对比风冷,液冷的单位造价进一步提升,目前风冷:冷板式液冷:浸没式液冷每kW成本的比例关系呈现逐步翻倍,因此液冷有望推动冷却环节的投资占比进一步提升。

机房二次侧零部件价值量分析:GB200/300单机柜液冷价值量较高

液冷系统分为机房侧和ICT设备侧两部分,机房侧包括一次侧和二次侧,一次侧是连接冷却塔到CDU,全液冷机柜的循环水系统,也称为一次管路或室外侧;二次侧是连接CDU到全液冷机柜中的液冷元器件的冷却循环水系统,也称为二次管路或室内侧。二次侧包括CDU、液冷机柜、列间空调、冷热气流隔离及封闭组件、动环系统: CDU:由于一般CDU功率在200-300kw,对应2000kw需要7个CDU,价值量占比约30%。 液冷机柜:成本包括快速接头、PDU、Manifold等主要组件,总价值量占比约16%。其中,PDU采用双路输入,一个机柜中需要两个。Manifold需要360不锈钢焊接,价值量较高。 列间空调:补冷热量占总热量的15%-20%,包括内机和外机,价值量占比35%。 冷热气流隔离即封闭组件和动环系统总价值量占比5%左右。

机房温控空间测算:2026年北美液冷市场有望达百亿美元

以GB300为例,考虑到2个GPU+1个CPU对应的功耗大概为 2.7kw,GB300全柜高端芯片对应功耗达到97.2kw。 GB300液冷价值量测算为101420美元,得出对应的单千 瓦价值量为1043.4美元/kw; 经测算,26年ASIC的液冷市场空间有望达到30亿美元, 在谨慎/乐观预期下英伟达的液冷市场空间分别为53/79 亿美元。综上,在英伟达液冷市场乐观预期下,26年北 美液冷市场有望达百亿美元。

三、液冷产业链解析

液冷产业链:上游为液冷系统零部件,中游为集成商

液冷产业链分为上中下游: 上游:主要为一次侧、二次侧、ICT侧的液冷零部 件,包含冷却塔、冷水机组、CDU、Manifold、 UQD、液冷板等; 中游:通常采购或自产上游液冷零部件,对接下 游客户提供机房侧或者服务器侧的系统级液冷方 案; 下游:数据中心服务商、运营商、互联网大厂等。

商业模式:解耦交付大势所趋,标准化有助于行业成长

当前液冷交付模式包括一体化交付与解耦交付两种。服务器与机柜解耦 有利于促进行业标准形成,让更多厂商参与其中。一体化交付存在非原 厂商机柜与服务器不适配、机房管理中各厂家难以对接等问题。解耦交 付可形成统一标准规范,便于后续机房的灵活部署,有助于温控厂商与 服务器厂商协调合作,给客户更大的自由度选择不同服务器和机柜组合, 而不受限于某一供应商。

竞争格局—系统级:综合能力是关键,绑定芯片方案有先发优势

液冷系统集成复杂难度成倍提升,考虑到设备温控稳定性,系统级能力要求高。由风冷技术向液冷技术的转化过程中,系统集成复杂难度成倍提升,主要体现在:1)设计难度增大:需要同时融合传热、流体、材料等学科;2)供应商零部件差异明显:各个零部件的供应能力与匹配接口皆有差异,拉长系统开发时间,且无法达到系统最优;3)采购难度加大:供应链需要协调多个供应商同时交付,增加采购负担;4)后期运维难度显著提升:单一供应商不具有故障的系统解决能力。因此综合前期设计、后期运维的系统级能力成为液冷时期的壁垒。温控的产品优势显现具有后验属性,长期的运行稳定依赖材料的选择、CDU冷量分配软件的优化设计、后期运维能力等综合系统及能力。由于液冷系统复杂度提升,各环节的沟通协同有望进一步加强。液冷相较于风冷而言,与服务器的匹配度要求进一步提升,无论是冷板式服务器(要求液冷冷板匹配服务器型号)还是浸没式服务器,都需要服务器、液冷厂商、IDC企业(业主)共同参与到设计等环节。而当前阶段,绑定加速卡芯片厂商的公司具备显著的先发优势。

竞争格局—零部件:制造环节有一定壁垒

液冷系统涉及零部件较多,不同零部件设计生产难度不同。以冷板式液冷为例,系统关键零部件包括冷板、快接头、Manifold、CDU等。制造角度,冷板的制造难点在于针翅、微通道等定制化设计以确定合适的流速、流量、热阻等指标,但本身为机加工件,壁垒较低;快接头难点在于控制漏液问题;Manifold可采用316不锈钢+无缝焊接工艺;CDU核心部件为水泵+换热板,软件控制需具备及时响应高功率机柜等能力。

海外和台资企业:在零部件环节仍占据主导

电子散热等零配件市场集中度高,以海外及台资企业为主。全球热管主要生产企业有 Honeywell、 Fujkura、双鸿科技、奇鋐科技等。奇宏,双鸿,台达电子等台资热管理厂 商早期为台企ODM服务器厂商提供风冷散热解决方案,同时在液冷批量应用前,配合英伟 达开始做液冷散热预研,随着液冷转为主流,早期配合英伟达开发液冷产品的台资厂商迅 速拿下批量订单,所以台资液冷组件公司成为本轮人工智能的液冷需求最大的受益方,预 计占据全球70%以上的液冷组件市场份额。在我国导管市场,台系厂商占据七成以上市场 份额。国内厂商以中石科技、飞荣达、奕东电子为代表,英维克逐渐布局电子散热领域。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至