2024年算力行业投资策略:多模态推动技术迭代,国产化助力产业成长

  • 来源:中信证券
  • 发布时间:2024/01/16
  • 浏览次数:1034
  • 举报
相关深度报告REPORTS

2024年算力行业投资策略:多模态推动技术迭代,国产化助力产业成长.pdf

2024年算力行业投资策略:多模态推动技术迭代,国产化助力产业成长。预计2024年算力仍是投资主线,建议关注多模态AI落地对算力的的促进作用以及国产替代。多模态AI的发展下,算力芯片、服务器、液冷环节都有望直接受益,AI时代网络架构与连接技术产生变革,同时终端AI也有望落地带动相关投资机会。国产替代方面,建议关注国产芯片与先进封装两大环节,关注国内AI厂商的供应链变化以及国内制造带来的相关厂商市场份额提升。趋势1:更高算力——GPU持续进化,云端AI芯片百花齐放,服务器伴随增长。云端算力:1)算力芯片:大模型对算力的需求持续增长,目前供给端仍未完全满足需求,2024算力...

多模态算力:更高算力、更强网络、更多终端

AI 时代,算力强化、网络优化、终端多样化成为趋势,2024 年这一趋势仍有望持续, 成为贯穿全年的投资主线。

更高算力:GPU 持续进化,云端 AI 芯片百花齐放,服务器伴随增长

大模型算力需求保持高水平,算力发展仍有强动力。大模型时代的算力消耗相比此前 的深度学习时代有多个数量级的提升,算力需求呈现指数级增长。云端大模型的算力消耗 始终较大,对算力硬件的需求仍然较高。

小模型性能与大模型仍有差距,仍需更高算力/存储配置支持性能升级。有望部署在边 缘端的小语言模型(SLM)如 Mistral 7B、phi-2 等虽然近期有所进步,相比传统基于 RNN 的小型神经网络有明显提升,但与同样基于 transformer 的大模型相比,还是有较为明显 的性能差距,因此需要更强的算力/存储硬件支持,才能发挥出语言模型的性能。当前阶段 无论大小模型,均对硬件算力和存储提出更高要求,推动行业发展。

模型算力需求仍持续增加,需要更多、更先进的硬件。根据 Amir Gholami @ Medium 的统计,大模型的算力、存储需求每两年增长上百倍,目前这一趋势尚在持续,而硬件端 摩尔定律、存储技术的增长仍然无法匹配该趋势,每两年翻倍的增速不能满足需求。在这 样的发展趋势下,大模型对算力硬件的数量提出更高的要求,对硬件架构的先进性也提出 高要求,因此更多、更先进的硬件仍然是重要需求。

综合上述趋势来看,2024 年,预计算力仍是发展主线之一,GPU、其他各大厂商的 云端 AI 芯片等有望保持高增长,服务器也有望跟随受益。

GPU:性能持续进化,价值量提升

当前阶段,GPU 仍然是算力硬件的主流选项。以中国为例,按照 IDC 统计,2023 年 上半年 GPU 服务器占据加速计算服务器 90%的比例,其余 NPU、FPGA 等形式的加速计 算服务器占比为 10%,此前几年 GPU 也一直是主流选项。

GPU 市场仍将保持高增速,出货量与产品换代为主要因素。根据 Verified Market Research 的预测以及我们对英伟达营收的预测,2024 年全球的 GPU 市场规模(对应于 NVIDIA 的 FY25)将达到 800 亿美元以上,仍然保持高增速。其中出货量的增长以及产品 的更新换代(价格提升)是主要的推动因素。

NVIDIA:预计 H 系列是 2024 出货主力,B 系列是 2024 主要新看点。GPU 市场当 前的主导厂商依旧是英伟达,其产品动向值得关注。从产品迭代节奏来看,2024 年 H100 系列将接替 A100 系列成为出货主力,有望支持英伟达数据中心产品线呈现量价齐升的局 面。新产品方面,2024 年英伟达有望推出 B100 系列,该系列有望继续推动其产品价值量 提升。

HBM 是大模型时代发展重点,算力与存储、网络的配比将成为提效关键。从英伟达 近期产品迭代来看,存储的进步较为重要。产品和投资意义上的大模型革命在 2022 年底 到 2023 年左右才真正爆发,而此前的 A100 和 H100 系列产品设计定型时间更早,因此并 非完全针对大模型极致优化的产品,在使用中可以发现其 HBM 存储往往成为瓶颈,算力 利用率仍然有提升空间。因此,2023 年的 SC23 超算大会上,英伟达宣布推出 H200,主 要的增强就在于采用新一代 HBM3e 芯片,据英伟达测试,这一措施大幅提高了产品的 AI 性能。我们预计存储有望成为 2024 年算力领域的一大主要发展方向。

此外,GPU 领域全球另一个重点厂商 AMD 也值得关注,其 MI300 系列产品在 2023 年 12 月举行了正式发布会,其产品性能有较大提升,我们认为其市场竞争力有望获得明 显强化,2024 年有望在商业上取得进展。

根据其发布会信息,MI300X 配合最新针对 LLM 进行优化的全新一代软件生态 ROCm6,相比前代获得数倍性能提升,有望获得全球互联网大厂的认可。根据 Digitimes 的报道,AMD MI300 系列新产品在 2024 年的出货量有望达到 30-40 万颗,为市场注入了 新的影响因素。

云端 AI 芯片:百花齐放,实现更高性价比

除 GPU 外,其他专用 AI 芯片也是 2024 年发展的一大主要方向,将在一定程度上影 响未来云端算力芯片的市场格局趋势。 AI 专用芯片多年前已经是学界和产业界的热门研究课题,如今其高能效、低使用成本 的特性已经是各家大厂的共识,可以在大规模部署(摊薄研发成本)的情况下获得更高的 性价比,降低电力消耗。

在自研 AI 芯片的产业化应用方面,谷歌仍是领先者。2017 年以来,TPU 迭代到如今 的 v5p,平均几乎每年都有新迭代,性能有了显著提升。

从性能指标可以看到,谷歌的 TPUv5 在训练速度、性价比方面都有翻倍以上的表现。 得益于优良的性能表现,谷歌 Gemini 系列模型也可以在 TPU 上进行相对高效的训练和推 理。

谷歌之外的其他厂商也在此方向动作频繁,例如 AWS 至今已经迭代了两代 AI 推理芯 片Inferentia系列,并推出了训练芯片Trainium系列。根据AWS Neuron Documentation , AWS Trainium 和 Inferentia2 都使用 2 个 NeuronCore-v2 核心,同样都提供 380 INT8 TOPS, 190 FP16/BF16/cFP8/TF32 TFLOPS, 47.5 FP32 TFLOPS,以及 32GB 的显存,性能相对优良。Airbnb、Snap、Sprinklr、Money Forward 和 Amazon Alexa 等客户都使 用了 AWS Inf 系列加速器。

此外,微软 MAIA、腾讯紫霄、百度昆仑芯等也是自研 AI 芯片的代表。根据腾讯云官 方微信公众号 2023 年 4 月 17 日的文章,AI 推理芯片“紫霄”,采用自研存算架构和自研 加速模块,提供高达 3 倍的计算加速性能和超过 45%的整体成本节省;根据鹅厂技术派微 信公众号 2023 年 4 月 18 日的文章,紫霄芯片 2023 年在腾讯会议实时字幕上已实现全量 上线,单卡紫霄机器负载可达到 T4 的 4 倍,并将超时率从 0.005%降低至 0。

百度方面,也将昆仑芯应用于自身数据中心。目前,昆仑芯已成功推出两代通用 AI 计算处理器产品:2019 年的昆仑芯 1 代 AI 芯片、2021 年的昆仑芯 2 代 AI 芯片,及多款 基于昆仑芯 AI 芯片的 AI 加速卡:K100、K200、 R100、R200 系列,RG800 以及 AI 加 速器组 R480-X8。新一代 AI 芯片、AI 加速卡及更多产品正在研发中。

服务器:需求持续,放量成长,ODM/JDM+液冷成为趋势

芯片需要服务器作为载体提供算力,2023 年全球 AI 服务器发展态势良好,并且在未 来几年仍有望保持较好的发展态势。服务器环节受到产业链上下游发展影响较大,上游芯 片合作方以及芯片技术演进、下游的客户合作关系和数据中心建设需求都能够较大程度影响行业发展。我们认为,由于云大厂在 AI 基建方面占据较高份额,有望助推白牌 AI 服务 器发展;同时由于 AI 计算的高功耗特性,液冷也成为未来发展的重点领域。 AI 服务器整体发展趋势保持良好,销售规模持续提升。根据 IDC 统计,2020-2022 年期间全球服务器市场规模基本保持在千亿美元左右。The Next Platform 在 IDC 的基础 上进行了进一步分类分析和预测,认为 AI 服务器在 2023 年市场规模或有可能超过 400 亿 美元,呈现跃变增长态势,并且在随后几年将大概率占据服务器市场一半以上的份额。

国内份额方面,近年来浪潮、华三、宁畅等企业份额较高。根据 IDC《中国半年度加 速计算市场(2023 上半年)跟踪》报告,2023 年上半年从厂商销售额角度看,浪潮、新 华三、宁畅位居前三,占据 70%以上的市场份额;从服务器出货台数角度看,浪潮、坤前、 宁畅位居前三名,占近 60%的市场份额;从行业角度看,互联网依然是最大的采购行业, 占整体加速服务器市场超过一半的份额,此外金融、电信和政府行业需求均有超过一倍以 上的增长。

全球份额方面,浪潮等企业份额较高,LLM 兴起后云大厂占比明显提升。根据 IDC 统计,2021 年全球 AI 服务器出货占比中,浪潮排名第一,占据 20.2%的全球份额。2022 年底与 2023 年以来,大模型主导了 AI 基建的需求侧,而大模型主要由全球互联网大厂和 部分创业公司(诸多拥有大厂资金和算力资源支持)主导,因而在 2023 年的 AI 服务器市 场中,大型企业取代了其他类型机构的需求份额,带来服务器市场格局转变。

云大厂引领 AI 基建格局演变,ODM/JDM 服务器提供商持续受益。从当前的 AI 基建 发展趋势来看,大模型极大拉高了投资门槛,能够建设基础设施并训练大模型的厂商往往 是头部互联网厂商,整个市场格局变得更加集中,并且这一趋势在可见的未来或许并不会 改变。从 Trendforce 的统计数据可见,2022 年,一半以上的 AI 服务器采购来自于北美四 大云厂商,结合上文 Digitimes 的研究,2023 年 AI 服务器采购集中在云大厂的趋势进一 步明确。而云大厂由于数据中心规模大、技术和成本要求都比较高,往往会对服务器供应 商提出较高的定制化服务需求,因此通常采用 ODM 厂商或采用 JDM 模式的厂商供货。根 据 Digitimes Research 的统计,目前四大云厂商的 AI 服务器供应商基本是多家 ODM 厂商, 其中工业富联作为鸿海集团子公司,也在云大厂的 AI 基建中占据一定份额。

对于浪潮、宁畅、新华三等厂商,其 AI 服务器市场份额较高,与其下游互联网厂商占 比较高有关。国内互联网巨头通常与这几家厂商合作密切,而浪潮正是 JDM 模式较早的 国内提倡者,其他厂商不同程度采用了 JDM 模式,顺应互联网行业发展需求。

高能耗导致高故障,散热需求推动液冷趋势。随着各种高性能芯片的发展,导致数据 中心热流密度明显升高,而电子器件失效的主要原因就是温度过高。美国空军航空电子整 体研究项目(US Air Force Avionics Integrity Program)认为,温度、振动、湿度和粉尘 是造成电子设备故障的主要因素。因此,散热设施对于数据中心的正常运行及使用寿命至 关重要。

此外,从降低能耗、绿色发展的角度,液冷技术是目前降低数据中心 PUE 的关键性 技术。液冷分为接触式及非接触式,接触式液冷是指将冷却液体与发热期间直接接触的一 种液冷实现方式,包括浸没式和喷淋式液冷等具体方案,非接触式液冷是指冷却液体与发 热器件不直接接触的一种液冷实现方式,包括冷板式液冷等具体方案。 冷板式冷却液一般采用去离子水、纯水、丙二醇或几种冷却液混合,冷却工质相对便 宜且消耗量较低;浸没式冷却液一般采用氟化物、矿物油或各种合成油,冷却工质成本相 对较高且用量较大。据曙光数创和高澜股份官网及公告,采用冷板式液冷的数据中心年均 PUE 值可降低至 1.2 左右,而浸没式液冷方案可以将 PUE 值降到 1.1 以下。

数据中心能耗不断抬升,液冷数据中心市场有望突破千亿。数据中心持续加快建设。 但是其总体能耗不断抬升,功率密度需求不断提高,液冷作为新兴的数据中心制冷技术在降低数据中心 PUE,满足算力高负载要求方面具有广阔的发展空间。根据赛迪顾问数据, 2025年中国液冷数据中心市场规模保守预计为 1283 亿元,乐观情形下预计为 1330亿元。

预计 2025 年冷板式液冷数据中心市场规模可超过 750 亿元,浸没式液冷数据中心市 场规模可超过 500 亿元。据赛迪顾问,预计 2025 年中国冷板式液冷数据中心占液冷数据 中心的比重为 59%,冷板式数据中心市场规模保守估计可达 757.1 亿元,2020-2025 年复 合增速为 22%;预计 2025 年中国浸没式液冷数据中心占液冷数据中心的比重为 41%,浸 没式数据中心市场规模保守估计可达 526.1 亿元,2020-2025 年复合增速为 46%。

更优网络:高带宽、低延时与低成本

AI 对于网络的要求:高带宽、低延时与低成本

AI 网络的第一个要求:更高的带宽与更低的延时。AI 大模型通常参数量巨大,通常 训练需要多张 GPU 协同进行计算,所以需要采用分布式训练技术——对模型和数据进行 切分,采用多机多卡的方式。但是实际上,分布式训练系统的整体算力并不是简单的随着 算力节点的增加而线性增长,而是存在加速比,且加速比小于 1。存在加速比的主要原因是:在分布式场景下,单次的计算时间包含了单卡的计算时间叠加卡间通信时间。因此, 降低卡间通信时间,是分布式训练中提升加速比的关键。对于网络而言,通常需要的就是 更高的带宽与更低的传输延时。

AI 网络的第二个要求:低功耗。数据中心内部最大一部分运维成本(Opex)是电力, 占整体比例超过一半,可以说数据中心本质上就是电力转换为算力的过程。而在数据中心 中网络设备的能耗会随着服务器带宽的增长而不断提升,根据 Meta 在 OFC2022 发布的 数据,当服务器带宽(Server Link Bandwidth)提升到 800G,其占数据中心功耗占比将 达到 20%。所以在需要服务器高带宽的 AI 应用场景下,网络设备的功耗将日益受到重视。

光模块未来发展趋势:高速、低功耗、LPO、CPO、硅光集成

高带宽:AI 光模块从 800G 向 1.6T 乃至更速率的发展。作为目前数通光模块需求的 主要驱动力,AI 对于网络带宽的要求不断提高,正在推动数通光模块向更高速进行发展。 英伟达对于 H100 芯片的网络推荐配置是 800G 光模块(2*400G),所以我们看到 2023 年 800G 光模块需求不断提升,2024 年 800G 需求展望亦在不断提高。随着 B 系列等更 高级算力芯片推出,网络需求将进一步被推高。根据 SemiAnalysis 曝出的一份英伟达未 来几年的硬件路线图,预计 B 系列 GPU 将于 2024 年推出,并于 2025 年放量,有望驱动1.6T 产品(2*800G)的放量。而后 X 系列 GPU 将于 2025 年推出,需求亦将进一步升级。 根据谷歌论文《Mission Apollo: Landing Optical Circuit Switching at Datacenter Scale》 (Ryohei Urata, Hong Liu, Kevin Yasumura, et al.)中的光模块速率路线图,谷歌同样预 计 1.6T 产品将于 2024 年开始应用。

低成本:低功耗方案关注度日益升高。此前我们提到网络设备能耗问题随着传输速率 增长而日益凸显,而在网络设备中光模块功耗对传输速率的增长最为显著。根据思科的数 据,过去 12 年数据中心的网络交换带宽提升了 80 倍,背后的代价就是:交换芯片功耗提 升约 8 倍,光模块功耗提升 26 倍,交换芯片 SerDes 功耗提升 25 倍。而光模块的整体功 耗已经接近交换机系统功耗的一半,所以降低光模块的功耗已经成为 AI 实现低成本的重要 问题之一。

线性直驱方案(LPO)方案:高速传统光模块中,通过 DSP 芯片对高速信号进行信 号处理。DSP 虽然功能非常强大,但也带来很大的功耗和成本开销。例如 400G 光模块中 用到的 7nm DSP 功耗约 4W,占整个模块功耗的接近 50%(R. Nagarajan, L. Lyubomirsky, O. Agazzi; et.al.)。线性直驱方案(LPO)中不再采用 DSP, 只留下 driver 和 TIA,而将 DSP 功能集成到交换芯片中。LPO 方案具备一系列优势,包括:(1)功耗低:相比于可 插拔光模块,LPO 的功耗下降约 50%,交换机系统的整体功耗会下降 25%左右。(2)低 延迟:由于不再采用 DSP,不涉及对信号的复原,整个系统延迟大大降低,可以应用到对 延迟要求比较高的场景。(3)低成本:去掉 DSP 后成本会下降。(4)易实现:LPO 仍然 采用可插拔模块的形式,其可靠性高,维护方便,可以利用成熟的光模块供应链。

光电共封方案(CPO)的方案:CPO 方案借助硅光集成的工艺将光引擎、电芯片和 交换机芯片封装在同一个基板上面,通过 TSV 的小孔来缩短封装电信号连接距离,有望同时实现高速率、高集成度、低功耗的方案。这是由于随着数据中心速率的提升,高速信号 在印制电路板(PCB)传输中的损耗快速增加,传统交换机使用的可插拔光模块方案由于 无法缩短电信号传输距离,难以满足合理的功耗要求,无法保证传输效果。同时缩短铜箔 传输距离也可以减少电信号功耗,单位能耗有望从热插拔的 24pJ/bit 降低到 7pJ/bit,进而 大幅降低电信号传输功耗。但是由于目前的技术与产业链尚不成熟等原因,短期内难以大 规模应用,但我们依然看好其长期发展潜力。

分立式模块向硅光模块的转变:未来确定性发展趋势。硅光子技术是基于硅和硅基衬 底材料(如 SiGe/Si、SOI 等),利用现有 CMOS 工艺进行光器件开发和集成的新一代技术。 相比分立式方案,硅光方案有望实现更高集成度以及更低成本(避免多次封装)。但是硅 光方案由于技术方案的不成熟、商业模式尚未完善、传统分立式方案的竞争等因素,导致 在 100G 与 400G 时代并未得到广泛应用。但随着光模块速率提高、需求量以及产品单价 的提升,同时硅光技术的成熟,硅光方案的低成本优势正在不断凸显。我们认为 2024 年 800G 光模块中,硅光方案的比例将有望显著提高。此前在硅光市场上主要的玩家是 Intel、 Cisco 北美厂商,国内厂商亦在积极布局,我们认为有望在未来的竞争中占据先机。

AI 网络的发展趋势:RDMA 优势显著,RoCE 与 IB 方案并存

AI 网络低延时需求正在推动 RDMA 方案的快速发展。RDMA(Remote Direct Memory Access)技术全称远程直接内存访问,目的是解决网络传输中服务器端数据处理的延迟, RDMA 可以绕过操作系统内核,让一台主机可以直接访问另外一台主机的内存,从而大幅 度缩减延时。目前 RDMA 有三种不同的硬件实现,分别是 InfiniBand、iWarp(internet Wide Area RDMA Protocol)、RoCE(RDMA over Converged Ethernet)。

IB VS RoCEv2:IB 网络性能最优,RoCEv2 方案成本占优。由于 IB 网络采用了较 多的技术来提升网络转发性能,降低故障恢复时间,提升扩展能力,降低运维复杂度等参 数,所以 IB 网络在时延、规模与运维方面具备明显的优势:(1)更低的端到端的时延:IB 网络的端到端时延一般是在 2us,而 RoCEv2 的时延一般是在 5us;(2)更大的部署规模: 在整体性能不下降的条件下,IB 能支持单集群万卡 GPU 规模,并且在业界有比较多的商 用实践案例,而 RoCEv2 网络目前单集群可以支持千卡规模。(3)更易运维:IB 较 RoCEv2 更成熟,包括多租户隔离能力,运维诊断能力等。但是由于 IB 网络需要对于网络设备进行 大比例的定制化同时目前供应商较为集中(IB 供应商中,英伟达占据份额超七成;而 RoCE 方案供应商则很多,包括 Intel、Broadcom、华为、新华三),所以 IB 网络方案目前成本 仍然较高。综合来看,我们认为未来两种方案未来将会共存:IB 网络性能最优,仍然将用 于高要求应用场景;而未来 RoCEv2 的性能也能满足大部分智算场景的业务性能要求,将 作为降成本的方案。

目前国内厂商在 RoCE 方案上积极布局,建议关注。新华三基于 RoCE 架构发布的 SeerFabric 智能无损数据中心解决方案,可以覆盖计算、存储、网络交换、管理控制、性 能展现与优化端到端的大带宽、递时延、零丢包的精确转发和可确定性网络体验,可以支 持 400G 大带宽组网,目前可以支持 RoCE 智能网卡包括 Mellanox 系列网卡、Intel E810 网卡等。除新华三外,华为、锐捷网络等厂商也在 RoCE 方案上积极布局,推出支持 RoCE 交换机与网络架构。我们认为未来随着 AI 算力规模的不断扩大,降成本需求将持续催生 RoCE 网络的需求,将为国内厂商带来潜在的发展机遇。

更多终端:大模型端侧落地,硬件算力端核心升级

AI 大模型落地成为终端出货成长新动能,接下来一年重在软硬件适配和产品打磨,从 “AI+产品”(出货量提升)到“产品 AI 化”(量价齐升),有望成为 2-3 年维度的成长主 线。2023 年以来,以 ChatGPT 为首的 AIGC 快速普及和渗透,各主芯片、品牌厂商已在 各类智能终端上发布了 AI 相关应用。然目前各类 AI 终端应用仍未达到成熟阶段,我们认 为接下来一年,终端 AI 的发展重在软硬件适配和产品打磨,终端 AI 发展(形态包括智能 手机、PC、IoT 等)仍为长期重点关注方向,预计 2025 年起开启需求周期。

云端(大脑)是根本,端侧(小脑与四肢)加入轻量智能与感知能力

核心观点:混合 AI 是 AIGC 时代下主流趋势,端侧 AI 将承担更多工作负载,建议关 注重量级/轻量级 AI 产品升级、零部件配套变化以及对终端市场成长带动。我们认为,以 云端作为 AI 大脑(以大算力、高带宽、大存储的芯片为主)处理主要的训练和部分推理任 务,边缘端和终端作为小脑与四肢(如手机 SoC 增加 NPU,主打低功耗、多传感器融合) 处理即时、频繁的用户端推理任务,并具备成本、隐私性双重优势,两者相结合的混合 AI 模式分配并协同处理 AI 工作负载,能够实现更强大、更高效且高度优化的 AI。对于端侧 AI,我们将产品按算力区分为重量级和轻量级:1)重量级 AI 产品:算力相对较强,如手 机、PC、机器人、汽车、边缘服务器等;2)轻量级 AI 产品:IoT 类产品,主要承担数据 入口的抓手功能,不一定强调算力升级,而更多关注传感器、连接类芯片升级。 综合来看,端侧 AI 时代下,我们建议关注四个方向:1)重量级产品的升级(算力本 身及配套的变化:主控芯片算力、大容量存储、高速互联、Chiplet 封装需求提升);2)轻 量级产品的升级(适应 AI 变化的端侧入口能力的增强:传感器升级,如麦克风、摄像头、 3D sensing、低功耗、传输互联等);3)零部件配套变化(更大的算力芯片、存储会倒逼 其他元器件全方位配套升级,如功耗升级背景下的散热等零部件、充电模块的同步升级等); 4)终端品牌出货量的提升(我们认为 2024 年更多是量增逻辑,2025 年将开启量价齐升 的周期)。

AIGC 发展迅猛,混合 AI 成为 AIGC 规模化扩展的关键。由于千亿参数大模型对计算 基础设施提出了极高的需求,因此无论是训练还是推理,大型复杂模型至今仍在云端部署。 然而 AI 推理的规模远高于 AI 训练,而目前云端推理的成本仍然较高,且将随着日活用户 数量及其使用频率的增加而提升。以生成式 AI 搜索为例,每一次生成式 AI 搜索成本是传 统搜索方法的 10 倍。此外,云端推理还有能耗过大、可靠性和时延影响用户体验、数据 隐私安全难以有效保证等问题,在此背景下,混合 AI 应运而生。混合 AI 是指终端和云端 协同工作,在适当的场景和时间下分配 AI 计算的工作负载,高效利用资源,提供给用户更 好的体验,让 AIGC 向 C 端更快速地规模化扩展。

云端:算力强大、应用广泛,仍是 AIGC 时代的根基。近年来,大模型参数量爆炸式 增长,根据 OpenAI,从最早的 GPT-1 仅有 1.1 亿参数,到 GPT-4 提升到 1750 亿参数, 产生巨量的训练需求。云端作为大模型各个玩家的主战场,需要巨大的 CAPEX 投入做算 力提升,加快模型的迭代速度。从大模型使用角度,终端由于对功耗限制严格,只有在一 些重量化设备上才能本地化运行一些小参数模型(目前在 100 亿参数以下),现阶段仍然 作为 AIGC 时代的重要数据和流量入口,云端仍为 AIGC 时代为万物赋能 AI 的主力。 边缘端:综合考虑能力和隐私保护后的权衡选择。随着 AI 快速发展,算力需求激增, 传统云计算架构已经不能满足。同时,随着数据隐私性和及时响应性愈发重要,传统云计 算架构渐显弊端,边缘计算应运而生。边缘计算将从终端采集到的数据,在靠近数据源处 的算力设备(如在边缘服务器)中直接进行推理计算,无需再将数据传输至云端数据中心, 在优化处理的同时降低成本。从处理能力看,边缘服务器布局于云端与终端之间,所用模 型为云端大模型的垂类模型,能够承担十亿/百亿级别的推理任务。从应用上看,我们认为 边缘端具备成本、隐私性双重优势,且算力持续提升,有望率先落地于智慧安防、智慧社 区/园区、泛商业等 B 端场景,以及对数据安全、私有云有特别需求的大型央国企端。1) 智慧安防&城市治理:相关 AI 解决方案能够立体管控公共区域,实现城市的精细化管理。 2)智慧社区&园区:提升社区服务与管理能力,规划社区职能,提升社区运行效率,以及 为工业园区、政府机关等城市微单元提供包括通行管理在内的多种智慧服务。3)智慧泛 商业:分析消费者属性,辅助商户进行商业决策。4)大型央国企端:边缘端 AI 可以形成 类似机房等私有云场景,避免数据直接上云,满足央国企对数据安全以及 AI 协同优化处理 的需求。

终端:加入轻量级智能化能力,以及承担主要数据入口的抓手功能。我们认为:终端 AI 落地优势主要有以下几点:(1)保证数据隐私性:大部分用户仍然对真正涉及到隐私或 敏感的信息上传云端偏抵制,但又希望未来大模型能够帮助提升效率,希望 AI 能够更快掌 握部分个人信息;出于信息安全考虑,端侧 AI 或更容易落地。(2)提升用户体验(响应 速度更快、随时待命):受制于传输速度、用户需求庞大、算力不足等因素,部分应用在 云端推理会影响用户体验。端侧算力仅为用户所用,且无需等待,大幅提升用户体验。(3) 使用成本更低:云端单次访问、推理的成本较高(云端 AI 会走订阅的方式需持续缴费), 且将随着大模型日活用户数量及其使用频率的增加而提升,若大量简单的基础需求均上传 至云端处理会导致使用成本较高,失去经济性。而端侧落地大模型将大幅降低用户使用成 本。(4)个性化定制:端侧 AI 将能够在不牺牲隐私的情况下,根据用户的习惯、喜好进 行个性化定制,并且可以随着时间推移进行学习和演进。 终端厂商的强力助推也正向强化了 AIGC 落地到端侧的可能性:(1)抢占流量入口: 随着端侧 AI 能力越来越强,从流量入口角度看,手机、PC 等终端厂商云端能力或话语权 相对较弱,更有意愿掌握端侧流量的入口。(2)带动换机需求:近年来智能手机的换机需 求和购机驱动 TOP10 里主要还是来自于硬件,如屏幕、快充、无线充等,目前硬件同质 化竞争,差异化减少,我们认为软件即 AI 大模型能力能够优化很多消费者的使用体验,从 而驱动换机需求,成为购机驱动因素的 TOP3。

端侧 AI 的局限性:大模型终端落地对算力、传输、功耗、散热等环节仍有挑战。我 们认为,终端落地大模型仍有以下问题待解决和提升:(1)算力需求升级:目前最新的高 通骁龙 8 Gen3 和联发科天玑 9300 已支持百亿以下参数大模型,未来端侧模型参数量仍 有提升空间,各厂商 SoC 除传统 CPU、GPU 等升级外,NPU 需加大升级力度提升 AI 算 力性能。(2)存储和传输能力升级:内存除了参数的存储,更重要是传输读取,这决定了 大模型答案生成速度,如果存储和传输条件不足,则端侧 AI 不如联网访问云端的体验。(3) 电池续航与散热能力升级:芯片、传感器等硬件性能增强导致功耗提升,会加大电量损耗、 功耗管理和散热问题。因此,即便终端主要负责推理任务,在传统硬件配置基础上,仍难 以做到短期内落地百亿以上参数的大模型,相关配置均需升级。 产品同质化、杀手级应用未能大规模出现是端侧 AI 发展面临的主要问题。(1)AI 大 模型+IoT 是长期趋势,后续终端同质化竞争可能较为严重。智能手表、手环、AR/VR 眼 镜以及 AI Pin 等新 IoT 形态,由于产品设计不足以支持本地化大模型运行,AI 功能主要通 过联网云端实现。我们认为,AIGC 渗透率持续提升背景下,AI 大模型+IoT 硬件产品有望 大规模涌现,而产品核心竞争力(AI 大模型性能)仍掌握在大型互联网厂商手中,硬件能 力相对容易满足,因此未来可能出现严重的产品同质化现象。(2)杀手级应用仍未大量出 现:目前使用端侧大模型运行的应用主要是对原有功能的智能化升级,一方面终端大模型 性能仍较云端有较大差距,另一方面,各厂商大模型仍未和各 APP 间连通生态,因此目 前尚没有刚需应用或杀手级应用大量出现。

重构智能终端产品定义:产业曲线两端率先发力

纵向维度:参考过去十余年智能手机发展历程,以高通、联发科、苹果 A 系列芯片为 代表的硬件先行,在算力支持的背景下,软件应用端开始爆炸式成长。从 2023 年年初高 通提出混合 AI 的概念以来,产业各个环节生态都在进一步发展,目前手机硬件端,高通、 联发科都已经发布能运行 100 亿参数级别大模型的旗舰 SoC 芯片。PC 硬件端,英特尔 2023 年 9 月发布首次内置神经网络加速单元(NPU)的 Meteor Lake 处理器;高通 2023 年 10 月发布的骁龙 X Elite 处理器能够运行 130 亿参数大模型;AMD2023 年推出了多款 搭载专用 AI 硬件“AMD Ryzen AI”的 7000 系列处理器,且计划 2024 年将发布下一代产 品,AI 能力将再度增强。目前,硬件“从 0 到 1”的过程已基本完成,我们预计未来随软 硬件适配能力提升,产品持续优化,端侧 AI 渗透率将持续提升,相关产品有望快速放量。 手机方面,我们预计到 2026 年百亿参数内的大模型落地智能手机的渗透率有望达 40%+。 PC 方面,联想预计 2024 年 AI PC 渗透率会在个位数,2025 年提升到双位数,英特尔目 标在 2024-25 两年内 AI PC 累积出货量达到 1 亿台。 横向维度:我们认为,终端 AI 时代,核心受益环节参考消费电子产业链“微笑曲线”, 其中硬件算力端(SoC、存储)、终端品牌将有望核心受益,零组件及组装中部分环节如传 感器、电池、散热结构件等部分受益。我们建议沿着“AI+产品”(出货量提升)到“产品 AI 化”(量价齐升)的逻辑,关注四个方向。

(1)算力本身及配套的变化:包括主控 SoC 芯片算力提升、存储升级(大容量、高 速传输)、封装升级(Chiplet)等。 ——SoC:增加 NPU 单元提升 AI 算力。传统手机、PC 芯片普遍是以 CPU/GPU/DSP 为核心的传统计算架构,但这一架构难以支持 AI 海量数据计算,终端若要提升 AI 能力需 要加入 NPU 单元保证运算能力,因此单芯片价值量将有所提升。 ——存储:容量、传输速率均需提升。运行大模型涉及大量数据的处理以及应用的调 度,因此所需的内存容量显著增加,例如典型智能手机内存为 8GB,而终端运行几十亿参 数大模型需要 16GB 内存;此外,数据在 CPU、NPU、内存间的快速访问对 AI 应用使用 体验至关重要,如 PC 上 DDR5、手机上 LPDDR5X 等高阶 DRAM 产品渗透率有望快速提 升,带动模组端价值量提升。 ——封测:Chiplet 有望受益算力快速增长。终端上 CPU+GPU+NPU 异构计算能力 将配合大模型持续提升,我们认为各运算单元由于运算任务和运算量要求不同,未来制程 或存在差异,例如 NPU 作为 AI 的核心处理单元,制程可能更先进,从而带动封测端如 Chiplet 技术的快速渗透,带动封测端价值量提升。

(2)适应 AI 变化的端侧入口能力的增强:主要体现在传感器升级,如麦克风、摄像 头、3D sensing,以及低功耗传输互联等。我们认为,终端 AI 渗透过程中将发生交互重 心的转变,即从以触控输入为主逐渐过渡到语音、手势等,从而衍生出智能终端新形态以 及增强传感、传输能力。——声学:多模态大模型应用提升语音交互重要性,为有效发挥大模型能力、处理多 样化的口音和方言,需要规格更高的麦克风保证语言输入的准确性。 ——光学:终端图像交互需求增强,且 AI 大模型在影像环节也有重要应用,CIS、镜 头同步升级。 ——3D Sensing:增强空间感知能力,提升手势识别准确度等。 ——传输能力:AIGC 时代交互数据量将爆炸式增长,相关互联芯片升级主要路线为 提升速率、降低功耗,关注 WiFi、BLE、星闪在 AI 时代的同步升级。

(3)零部件配套变化:全方位升级,功耗升级等背景下的散热等零部件、充电模块 的同步升级。零组件和加工环节将延续智能手机时代的方式,但对于散热等零部件、充电 等方面有更高要求。 ——散热:AI 大模型本地化运行过程中会加大功耗,散热等零部件需配合升级。 ——充电:进行更好的功耗控制、提升电池效率。 ——IDH/ODM/EMS:主要受益于 AI 带动的终端产品出货量提升。

(4)品牌厂商:掌握用户流量入口,AI 功能有可能成为差异化的代表,类似于新能 源汽车的智能化差异,带动换机需求的提升。

AI 手机:端侧算力落地需要硬件支持,主控 SoC、内存、散热核心升级

AI手机是一个软件定义硬件的过程,AI模型落地智能手机有望为近年应用创新乏力、 性能过剩的智能手机行业带来下一轮创新原动力。我们预计,未来 2-3 年内智能手机端侧 AI 大模型参数或达 200 亿规模,4-5 年有望达到 300 亿规模,千亿参数大模型则有较高实 现难度(结合云端算力,本地千亿大模型的必要性也不足);我们预计 3 年维度下百亿参 数内的大模型落地智能手机的渗透率有望达 40%+,考虑到智能手机端侧大模型需要内存、 主芯片等硬件支撑,而低端手机 BOM 难以支撑,参考智能手机出货价格分布情况,我们 预计百亿参数级别大模型主要落地于 2500 元以上智能手机。

核心升级之 SoC:算力持续强化为手机 AI 使用体验提升提供底层支撑,高通、联发 科均在产品迭代上进行重点布局。以往的手机芯片普遍以 CPU/GPU/DSP 为核心的传统计 算架构,但这一架构难以支持 AI 海量数据计算。2017 年 9 月 2 日,华为率先发布全球首 款人工智能移动计算平台麒麟 970,集成人工智能专用 NPU 神经网络单元,率先将 AI 芯 片落地智能手机。同年 9 月 13 日,苹果发布 iPhoneX,使用自研的手机芯片 A11,其中 内置名为 Neural Engine 的神经网络处理单元,同样着力提升 AI 应用体验。近年来,在芯 片算力升级过程中,价格亦持续提升,以高通骁龙为例,骁龙 8 Gen1 的 AI 算力达 9 INT8 TOPS(每秒万亿次操作);骁龙 8 Gen2 AI 算力提升了 4.35 倍;骁龙 8 Gen3 的 NPU 算 力进一步提升98%。TechInsights估算骁龙8 Gen1价格约120-130美元(2021年),8 Gen2 价格约 160 美元(2022 年),8 Gen3 价格约 200+美元(2023 年)。由于芯片平台迭代周 期约为 2 年,骁龙 8 Gen3 主要基于 2022 年大模型开发。我们认为,“AI 原生 SoC”时代 有望于 2024 年中推出的骁龙 8 Gen4 开启。

2023 年,高通骁龙 8 Gen3 全新旗舰移动平台,联发科发布天玑 9300 旗舰 5G 生成 式 AI 移动芯片,均在 AI 方面进行强化。其中,骁龙 8 Gen3 重点在于协调调度芯片内部 各个部件,实现优秀的性能表现;而天玑 9300 则侧重生成式 AI,通过 AI 大语言模型为用 户带来全新的 AI 体验。分别来看:

——高通骁龙 8 Gen3:高通骁龙 8 Gen3 发布于 2023 年 10 月 25 日,高通将 Hexagon DSP 升级为 Hexagon NPU,可集合 Kryo GPU、Adreno GPU、Hexagon DSP、Spectra ISP、标量/矢量/张量加速器、传感器中枢等各个单元的力量,这也是高通首度在 NPU 中 加入支持多模态生成式 AI 模型的 AI 引擎,该引擎支持 LLM(大语言模型)、LVM(语言 视觉模型)和 ASR(自动语音识别)模型,端侧最大支持 100 亿参数的模型(LLM 方面, 以 Meta 70 亿参数的 Llama 2 模型为例,骁龙 8 Gen 3 支持每秒 20token 的表现)。同时, NPU 也进一步提高了各大传感器调用用户数据的能力,比如针对音频、动作传感器等需要 长时间待机的 AI 使用场景,骁龙 8 Gen3 专门提供了 2个低功耗的 NPU 单元。此外,8 Gen3 还在内存和 NPU 之间建立了直连通道,进一步提高运算效率。

——联发科天玑 9300:2023 年 11 月,联发科发布天玑 9300 旗舰 5G 生成式 AI 移 动芯片,其搭载的第七代 AI 处理器 APU790,内置了硬件级的生成式 AI 引擎,可实现更 加高速且安全的边缘 AI 计算,深度适配 Transformer 模型,处理速度是上一代的 8 倍(1 秒内可生成图片),支持最高可达 330 亿参数的 AI 大语言模型(实际应用上,vivo X100 则搭载 70 亿端侧模型)。生态方面,联发科 NeuroPilot AI 平台构建了丰富的 AI 生态,支 持 Android、Meta Llama 2、百度文心一言、百川大模型等前沿主流 AI 大模型,助力开发 者在端侧快速且高效地部署多模态生成式 AI 应用,为用户提供文字、图像、音乐等终端侧 生成式 AI 创新体验。

核心升级之存储:AI 手机需要更大容量、更高频率和更大内存带宽。目前典型的智能 手机搭载 8GB 内存,支持端侧 AI 大模型功能的智能手机则需要更大容量的内存。考虑到 大模型内存占用+安卓系统运行内存占用+其他常规 APP 运行内存占用,我们认为一个搭 载 100 亿参数大模型的手机约需要 14-16GB 内存;搭载 200 亿参数大模型的智能手机约 需要 20-24GB 内存。如 vivo X100 系列手机(搭载 70 亿参数大模型,具有语言理解、文 本创作能力,最快出词 20+字/秒,内存占用 3.9GB),基础款内存将由前代的 8GB 升级为 12GB 起步,高配款的内存则由前代的 12GB 升级为 16GB。此外,AI 手机存储也需要更 大的带宽和传输速率,如骁龙 8 Gen3 支持 LPDDR5X,频率从前代的 4.2GHz 提高到了 4.8GHz,内存带宽则从 33.5 GB/s 提升到了 77GB/s;天玑 9300 则率先支持 LPDDR5T 9600Mbps 内存,以实现更快的智能手机内存传输速率。

其他升级之散热、传感器。此外,考虑到智能手机有望基于 AI 大模型采集、分析、 传输更多数据,我们预计需要匹配更好的散热特性,光学、声学等方面亦有升级趋势。

——散热:高阶安卓手机主流散热方案以超薄 VC 均热板为主、辅以石墨及石墨烯, 中阶机型则是以导热管结合石墨散热方案为主。随 AI 手机算力提升散热需求或同步成长, 据模切之家测算,一部手机所需的人工石墨膜价值量约 2.5 元;导热硅胶 ASP 约 2-5 元; 石墨烯膜 ASP 约 100 元以上;参考热设计微信公众号,我们测算一部智能手机所需的均 热板价格约 10-15 元。

——光学:摄像头是人机视觉交互入口,大模型加持下,手机摄像头有望从被动调用 往主动感知转变,即摄像头有望主动感知用户所处环境及用户手势意图等,且长时间的低 功耗后台运行有望成为趋势。除摄像头外,我们预计 ISP 亦有望强化 AI 特性,从而实现 对捕捉到的画面色彩、纹理、噪点以及亮度进行实时逐帧优化,使得画面更明亮且细节更 丰富;且有望提升防抖运算速度以实现运动场景和暗光环境下快速捕捉到高清晰度的图像。

——声学:语音输入是人机交互的关键接口,我们预计后续智能手机或持续升级麦克 风收音质量,强化用户意图理解,增强语音交互体验。据 technave 消息,Apple 已在 2023 年第三季度对 Siri 团队进行重组,以整合 AIGC 功能和大型语言模型,iPhone 16 麦克风 有望迎来升级。

AI PC:处理芯片率先升级,存储等配套芯片亦有升级需求

AI PC 时代将至,大模型应用、主核、软件架构交替升级有望重新演绎“Tick Tock” 发展模式,进而加速 PC 换机节奏。CPU 等主核芯片是 PC 产品的性能核心,其升级迭代 很大程度决定了 PC 的换机节奏。复盘过往 CPU 产品发展历程,因工艺难度急剧攀升, 制程升级趋缓下主核硬件的迭代放缓:以 Intel 为例,原本公司制定的“Tick Tock”战略 旨在通过制程与架构的隔年交替升级来维持 CPU 产品的稳步更新,然而其先进制程研发 不及预期,导致“Tick Tock”战略逐步难以持续,只能通过架构优化的“挤牙膏”式升级, 一定程度拉长了 PC 换机周期。而在 AI PC 时代,我们认为 AI 大模型应用、主核硬件、软 件架构三者相互促进共同发展,Intel“Tick Tock”式发展模式有望得到重新演绎,进而有 望驱动 PC 换机节奏加速。在大模型应用百花齐放背景下,一方面因算力需求快速提升, 需在主核上新加入 NPU 等 AI 芯片以满足大模型运算要求,是硬件端升级方向;另一方面 AI 大模型应用衍生出高效的并行处理、资源调度、用户交互、安全隐私保护等需求,同样 需要架构上进行对应升级。 另一方面,微软新一代操作系统也即将到来,同样强调软件应用与硬件端的协同配合。 结合 Tom's Hardware 和 Windows central 等媒体网站新闻,微软预计在 2024 年下半年推 出新一代 Windows 系统(可能为 Windows 12),新系统将进一步专注于 AI 功能的用户体 验,增强对于原生 AI 应用的支持,如更高级的 Copilot、视频及游戏增强、AI 字幕、3D 图像生成等。另一方面,新系统也将提升对于 PC 硬件的配备要求,如提高内存门槛(参 考 Win 11,其最低内存配置提高到了 4GB,而 Win 12 有望进一步提升要求 8GB)。

我们预计 AI PC 将成为未来 PC 市场的主要品类,而且 2024 年将开启 AI PC 普及进 程,Canalys 预计至 2027 年全球渗透率将达到 60%。当前产业玩家对于 AI PC 渗透节奏 观点不一,综合其观点我们认为 2024 年将是 AI PC 普及应用元年,对应实现“从 1 到 10” 的产业阶段,2025 年 AI PC 将加速铺开:根据 Canalys 统计及预测,伴随着 x86 阵营的 主芯片厂商更新落地其处理器产品,AI PC 将在 2024 下半年快速落地,至 2024 年第四季 度渗透率将超过 25%,而 2027 年市场渗透率将达到 60%,年出货量超过 1.75 亿台。

核心升级之主控芯片 XPU:AI PC 时代首先要求主控芯片性能升级,2023 年英特尔、 AMD、高通等巨头的产品布局已就位,其中 XPU 异构方案是主流选择。主控芯片是决定 PC 性能的关键核心,在 AI PC 时代主控芯片的升级更是“首当其冲”,其中的常见方案是 将 NPU 等 AI 芯片内置来提升处理器的 AI 运作性能(即 XPU 异构混合架构),如英特尔、 AMD、高通等龙头的相关产品已发布,我们预计相关终端产品将在 2024 年渐次落位,具 体来看:

——(1)英特尔:2023 年 12 月 15 日,英特尔正式发布其基于 Meteor Lake 架构 的第一代英特尔酷睿 Ultra 处理器,该处理器凭借多级 XPU 设计拥有高达 34TOPS 的 AI 算力,支持 BERT、LLaMA2、GLM 2、GLM 3 等大模型运作,且具备优秀能耗表现, 相关产品将在 2023 年底及 2024 年初搭载在 30+家品牌厂商的 230 款产品实现落地,12 月 16 日已有戴尔新款灵越 13 Pro 笔记本电脑发布,以“AI PC”为产品标签。

——(2)AMD:2023 年初 AMD 推出首款搭载专用 AI 硬件“AMD Ryzen AI” 的 处理器 Ryzen 7040,12 月 7 日 AMD 再次发布 AMD Ryzen 8040 系列处理器,其 NPU AI 性能算力从上一代的 10TOPS 提升到 16TOPS,处理 Llama 2 及视觉大模型的性能提升 40%,根据 AMD 官网信息,相关产品将在 2024Q1 于宏碁、戴尔、惠普、联想等品牌厂 商产品上实现出货。

——(3)高通:2023 年 10 月,高通正式发布骁龙®X Elite 平台,采用定制的集成 高通 Oryon™ CPU,专为 AI 打造,支持在终端侧运行超过 130 亿参数的大模型,根据 Canalys 报道,ODM 厂商预计高通将于 2024 年中推出搭载骁龙 X Elite 的 PC。 此外,如苹果也在其 M3 系列产品(2023 年 10 月推出)上引入了增强型神经网络引 擎来提升 AI/ML 运行效率。综合来看,头部主芯片厂商已完成了具备较强 AI 性能的主控 芯片产品部署,为 AI PC 终端产品的落地提供先决条件。

核心升级之存储等配套芯片:AI PC 将带动存储、PMIC、DCDC 等配套芯片迎来升 级需求。PC 上 AI 功能的实现除了要求主芯片需要拥有强大性能之外,整个系统的高效运 转也对于周边配套硬件提出更高的性能要求,如存储、PMIC 等配套芯片也将迎来升级机 遇。具体来看,(1)DRAM:终端大模型涉及大量数据的处理以及应用的调度,对于 DRAM 存储芯片的进阶要求包括高容量、高速、高带宽等,因此一方面有望加速 DDR5 渗透率提 升,另一方面从规格上看,参考当前 PC 端运行 LLaMA 的内存大小要求(7B/13B/30B/65B 参数规模约分别对应 8/16/32/64GB,Hardware-corner 网站测算),考虑未来 AI PC 有望 对终端大模型进行精简及优化,我们预计 AI PC对于内存的配套需求可能为 16GB及 32GB 甚至更高。(2)NAND:为使得 AI PC 具备全面定制化能力,更大的闪存 NAND 也有助于 容纳更大规模的个人数据库,例如使用 1TB 或更大空间的 NVMe SSD。(2)PMIC:AI 功能运转会使得系统功耗提升,因而需求更优秀的能效控制,我们认为 PMIC 的需求会提 升。(3)DCDC:为提升 AI 性能,AI PC 会在处理器芯片内集成 NPU 等芯片或者在主板 上增加独立 AI 芯片,我们认为供电需求增加将驱动 PC 上的 DCDC 价值量提升。

功耗提升 PC 散热要求增长,同样可关注散热领域如结构件、碳纤维等的配套升级机 遇。运转大模型过程中处理器、存储等芯片的持续运转将产生额外的功耗和热量,为了防 止系统过热导致的性能下降或者器件损耗,更好的电脑散热也是 AI PC 的发展重点,而改 进优化的方向具体包括更好的散热结构设计、改用更好的散热材料等。(1)散热结构设计: 涉及散热风道的结构设计、散热风扇/热管/均热板的应用、高发热量元件的分散布局设计 等方面内容,我们认为 AI PC 时代将更加考验相关制造商的电脑设计与制造能力。(2)应 用散热性能更好的材料:例如采用热导性更强的碳纤维材料作为笔记本机身等,当前如联 想 ThinkPad X1 Nano 等高端产品已采用碳纤维材料。

国产替代:芯片+先进封装共同成长

除 AI 算力整体增长外,我国还在部分领域存在较强的国产替代需求,未来存在渗透率 提升的空间,以芯片及先进封装领域为主。

国产芯片:自主趋势明确,算力、生态同步发展

算力芯片环节是必争之地,供应链不确定性带来替代机遇。2022 年和 2023 年,美国 商务部连续两轮管制,海外芯片可供应的空间连续缩小,A100/H100 以及 A800/H800 的 供应链先后受阻,我国 AI 企业面临供应链的不稳定性,给我国芯片企业提供了足够的替代 机遇。

英伟达特供新卡性能受限,为国产算力芯片提供势能。在 BIS 的限制下,目前英伟达 可对中国提供的新卡 H20、L20、L2 性能较为有限。其中 H20 作为训练卡,其性能基本紧 贴限制边界,算力性能略高于 V100(2017 年产品),对比如今的主流产品存在一定差距。 性能端,H20 虽提供较高的带宽与 HBM 存储配置,能够提高算力利用率,但算力成为了 限制性能的瓶颈。成本端,H20 仍使用 Hopper 架构,我们认为主要是通过点断工艺屏蔽 了大量的计算单元来实现的,因此芯片成本方面与 H100 相对接近,且额外增加了点断工 艺的少许成本和 1 颗 HBM 颗粒的成本。根据远川研究所的测算,H100 算力卡的 BOM 成 本达到 3000 美元以上,另外英伟达近年来的各类费用开支一般维持在营业成本的 2/3 以 上,因此 H20 的价格存在较为明确的下限,限制了其性价比的提升。在海外合规产品性能 面临瓶颈,性价比也存在上限的情况下,国产芯片迎来了发展良机。

算力需求增长明显,国产算力空间广阔。IDC 测算,2022 年中国智能算力规模达 259.9 每秒百亿亿次浮点运算(EFLOPS),2023 年将达到 414.1 EFLOPS,预计到 2027 年将 达到 1117.4 EFLOPS;2022 年中国通用算力规模达 54.5 EFLOPS,预计到 2027 年通 用算力规模将达到 117.3 EFLOPS。IDC 预测 2022 - 2027 年中国智能算力规模年复合增 长率达 33.9%,同期通用算力规模年复合增长率为 16.6%。据 IDC 统计,2023H1 中国人 工智能服务器市场规模超 30 亿美元,同比增长 55.4%。

算力芯片占服务器成本比例高,价值量高,市场空间大。目前主流的 AI 服务器当中, 算力芯片成本占据整体成本的 80%以上,价值量高,同时也意味着其市场空间较大。随着 我国 AI 服务器规模增长到百亿美元级别,我国算力芯片也有望获得百亿美元的市场空间。

国产芯片阵容全面,覆盖不同终端的训练推理需求,足够争取市场。从产品对需求的 覆盖角度来看,国产芯片基本在各个领域都有存在,足够覆盖广泛的需求场景,例如海光、 寒武纪、昇腾等都是云端算力芯片供应商,一级市场的壁仞科技、摩尔线程、沐曦、天数 智芯、昆仑芯等也都在云端进行了不同程度的部署,云天励飞、昇腾、寒武纪等方案也具 备足够的边缘端计算能力。

国产算力芯片的核心评价指标,仍然是硬件算力(也包含显存/存储性能、互联带宽) 与软件生态两大核心方面。 目前,国内 GPU/AI 芯片公司数量较多,从性能指标方面来看,已有部分公司能够在 理论硬件性能方面接近国际主流水平,理论算力指标较高。

相比硬件性能,软件生态对 GPU/AI 芯片或许更为关键,因为生态真正决定了产品是 否可用(可以运行所需软件);而且软件生态并非像硬件一样一代一代更新,而是会在原 有基础上持续积累,因而做成软件生态耗费的时间会更长。根据我们此前发布的《计算机 行业“构筑中国科技基石”系列报告 27:GPU 框架,从 ROCm、Pytorch 看生态壁垒》 (2023-11-13),NVIDIA CUDA、AMD ROCm、华为昇腾 CANN 三大生态的建设周期基 本都在 5 年以上。诸多开发者各自编写程序,构成了庞大的软件生态和开发者生态,诸多 软件积累的用户群体则是生态最具规模的部分。指令集、程序、开发者、用户共同构成了 庞大的生态圈,要颠覆已经成型的生态难度巨大。 分厂商来看,海光充分利用开源社区,且兼容现有的国际主流开源方案,这也是我们 认为海光相对容易进行 CUDA 软件生态替代的原因。从海光信息官网可见,目前其使用 的 MIOpen、RCCL、hipSPARSE 等库都属于国际主流开源社区,且在开源领域属于影响 力较大的方案,这极大降低了其自身开发软件生态的门槛。另外利用开源社区的好处在于 代码公开,用户可以按需进行代码更改,这对一个尚未完善的生态也具有一定的作用。

华为昇腾的生态进度国内领先。昇腾 CANN 生态提供 AI 框架适配器 Framework Adaptor 用于兼容 Tensorflow、Pytorch 等主流 AI 框架。华为昇腾 NPU 团队通过长期投 入适配工作,已于 2023 年 10 月 4 日的 Pytorch2.1 版本中被纳入第三方设备原生支持列 表,在国内进度领先,有望借此形成生态优势并保持。

根据昇腾官网 ModelZoo 页面显示,其提供的神经网络模型样例有 200 余个,涵盖了 视觉的分割、分类、生成,语音和声纹识别,NLP、机器翻译、推荐系统、LLM、扩散模 型、多模态模型等类型,下载量靠前的包括了 YOLO、BERT、ChatGLM、ResNet、LLaMA 等经典模型。

寒武纪已推出的产品体系覆盖了云端、边缘端的智能芯片及其加速卡、终端智能处理 器 IP,可满足云、边、端不同规模的人工智能计算需求。公司的智能芯片和处理器产品可 高效支持机器视觉(图像和视频的智能处理)、语音处理(语音识别与合成)、自然语言处 理以及推荐系统等多样化的人工智能任务,高效支持视觉、语音和自然语言处理等技术相 互协作融合的多模态人工智能任务,支撑智慧互联网、智能制造、智能交通、智能教育、 智慧金融、智能家居、智慧医疗等“智能+”产业。同时,公司研发了统一的基础系统软 件平台。公司已经形成完备高效的芯片和软件开发流程,可根据市场需求和下游应用的演 进趋势对产品进行快速迭代升级,在支撑客户业务的同时也推动公司核心技术的不断提升,拓展了公司产品的品类和应用场景,延伸了智能芯片应用生态的边界,使公司的产品体系 始终满足市场和客户需求。

国内其他未上市厂商还包括摩尔线程、壁仞科技、沐曦集成电路、天数智芯、燧原科 技等,都在各自的硬件基础上构建了自有生态。 摩尔线程官网显示,其自主构建了 MUSA 生态来兼容 CUDA,其生态组成与英伟达 CUDA 接近,基本所有组件都有与 CUDA 的对应关系,例如采用 muDNN 代替 cuDNN、 muBLAS 代替 cuBLAS 等,另外自行开发 MCC 编译器等。 壁仞科技主要产品包括 BR100、BR104 等。壁仞科技也开发了 BIRENSUPA 平台尝 试兼容 CUDA。其当前计算库主要包含 DL 算子库、并行计算库、多卡通讯库等基础库, 应用端主要有两大行业解决方案,分别是负责视频分析的 AutoStream 和负责广告推荐系 统的 suCTR。 沐曦集成电路的研发的高性能 GPU 芯片可应用于 AI 推理、AI 训练、高性能数据分析、 科学计算、数据中心、云游戏、自动驾驶、元宇宙等众多需要高算力的前沿领域。其 MXMACA 平台通过自行开发 BLAS、DNN 等库,以及自行开发 Pytorch 等框架的兼容程 序,来实现与 CUDA 生态的兼容。 此外,天数智芯等厂商也提供其 GPU 产品以及 DeepSpark 开源软件生态,与其他 GPU 厂商一样支持 FFT 等 HPC 负载以及 AI 框架、辅助软件工具。

先进封装:AI 算力芯片迭代加速,先进封装助力性能提升

核心要点:先进封装成为芯片制程升级外另一升级焦点,异构整合让 2.5D/3D 封装重 要性凸显。半导体制程升级让电晶体大小不断接近原子的物理体积限制,先进制程难度加 大,摩尔定律迭代速度放缓。而能够将两种不同的芯片(如存储芯片和逻辑芯片)通过封 装形成小体积、高效能芯片的异构整合(Heterogeneous Integration Design ArchitectureSystem,HIDAS)技术应运而生,通过先进封装和晶圆制造技术的结合能够满足高性能计 算芯片对计算能力、延迟和更高带宽的要求。目前,AI 算力芯片主要采用单芯片基板型 (FCBGA)和多芯片基板型(2.5D/3D Integration)封装,其中 2.5/3D Integration 大量 运用在高性能、高集成的产品上,包括 AI 服务器、HPC 等多种高端应用领域中使用的 FPGA、 CPU、GPU 等。我们认为,随大模型在各下游领域持续渗透,AI 算力需求将不断增加, 持续推动先进封装行业发展,海外厂商如台积电、英特尔先发优势明显,有望持续受益, 国内厂商如长电科技积极布局,未来有望持续受益于国产 AI 算力芯片发展迭代。

摩尔定律迭代速度放缓,从系统应用出发,整体性能提升依靠先进封装技术。在硅基 半导体的技术演进上,每 18-24 个月晶体管的数量翻倍,带来芯片性能提升一倍,或成本 下降一半,这一规律称为“摩尔定律”。先进制程带来的成本优势和先发优势使得半导体 厂商一直致力于实现特征尺寸的缩小,而如今,随着延续摩尔定律所需新技术研发门槛提 高、研发周期拉长,制程工艺迭代需花费更长时间,且成本提升明显。业界认为,系统异 质整合是提升系统性能,降低成本的关键技术之一,需要依赖先进封装技术。以 CPU 为 例,从 CPU 处理器的性能发展驱动力来看,近十余年,单核性能提升的效果边际降低, 增加处理器核心数量尤为关键。由于单颗芯片面积越大,良率越低,相应成本越高,先进 封装成为低成本增加核心数量的重要方式。以 AMD 的 Chiplets 架构举例,可以设计成多 晶粒架构,将处理器的多个处理核心制造在多个晶粒里,再封装整合成单一 CPU,取代原 本将所有核心在单一芯片统一制造的方式,可大大降低成本。再如苹果于 2022 年发布的 M1 Ultra 芯片是由两颗 M1 Max 芯片通过台积电 InFO-LSI 技术封装在一起,实现了芯片 性能的翻倍。先进封装技术能解决异质高密度的集成,运用封装技术继续提升整体性能。

封装朝小型化、多引脚、高集成目标持续演进。封装历史发展大概分为五阶段,目前 市场主流封装形式仍以第三阶段为主流,BGA 和 CSP 等主要封装形式进入大规模生产阶 段。封装演变朝着小型化、I/O 数量增加(多引脚)、集成化三向发展。以小型化为例,过 去 DIP 封装后的体积是芯片的 100 倍大,发展至 CSP 仅芯片的 1.2 倍或更小;I/O 数量也 从过去 6 个引脚增加到数千个以上。先进封装位于整个封装技术发展的第四阶段及第五阶 段,I/O 数量多、芯片相对小、高度集成化为先进封装特色。

先进封装以内部封装工艺的先进性为评判标准,并以内部连接有无基板可分两大类。 先进封装的划分点在于工艺以及封装技术的先进性,一般而言,内部封装为引线框架(WB) 的封装不被归类为先进封装,而内部采用倒装(FC)、晶圆级(WL)等先进技术的封装则可以 称为先进封装,先进封装以内部连接有无载体(基板)可一分为二进行划分:

——有载体(基板型):内部封装需要依靠基板、引线框架或中介层(Interposer),主 要内部互连为倒装封装(FC),可以分为单芯片或者多芯片封装,多芯片封装会在中介层(或 基板)之上有多个芯片并排或者堆叠,形成 2.5D/3D 结构,基板之下的外部封装包括 BGA/LGA、CSP 等,封装由内外部封装结合而成,目前业界最具代表性且最广为使用的 组合包括 FCBGA(倒装 BGA)、Embedded SiP、2.5D/3D Integration。

——无载体(晶圆级):不需要基板、引线框架或中介层(Interposer),因此无内外部 封装之分,以晶圆级封装为代表,运用重布线层(RDL)与凸块(Bumping)等作为 I/O 绕线手 段,再使用倒放的方式与 PCB 板直接连接,封装厚度比有载体变得更薄。晶圆级封装分 为扇入型(Fan-in)跟扇出型(Fan-out),而扇出型又可以延伸出 3D FO 封装,晶圆级封装为 目前封装技术中最先进的技术类别。

AI 算力芯片主要采用单芯片基板型(FCBGA)和多芯片基板型(2.5D/3D Integration) 封装。先进封装可以由单芯片、多芯片、晶圆级、基板级组合而成,一般而言,多芯片封 装都在封装内部自成一个子系统,因此多芯片又可以被归类为 SiP (System in Package, 系统级封装),SiP 封装关注在封装内的系统实现,不管先进性与否,只要是能自成系统的 都可以称为 SiP,而先进封装领域的 SiP 包括 2.5D/3D FO、Embedded、 2.5D/3D Integration 以及技术比较先进的异质异构封装(比如苹果手表 S 系列芯片)等。对于 AI 算力芯片,高性能 ASIC 多采用单芯片基板型(FCBGA),FPGA、(x)PU 等高集成产品多 采用多芯片基板型(2.5D/3D Integration)封装。

FCBGA:单芯片基板型封装,多用在高引脚数量和高性能 ASIC(专用集成电路)。 FCBGA 是 FC 倒装技术与 BGA 技术结合的产物,这种封装使用焊球作为底部引脚来连接 基板与 PCB 的同时,芯片通过 FC 技术与基板实现互连。该技术主要特点表现在以下三个 方面:(1)优异的电性效能,同时可以减少组件互连间的损耗及电感,降低电磁干扰的问 题,并承受较高的频率;(2)提高 I/O 的密度,提高使用效率,根据 PCBDirect,FCBGA 可有效缩小基板面积缩小 30%至 60%,I/O 可以支持 600-1200 个以上;(3)散热性好, 可提高芯片在高速运行时的稳定性。FCBGA 大量应用在高引脚数量和高性能 ASIC,大 尺寸 FCBGA 能提供满足互联网、工作站处理器和高带宽系统通讯设备需求的封装解决方 案,目前 FCBGA 常见应用包括 ASIC、CPU、图形加速芯片等,其改良版 FCLGA 可以 支持数千个 I/O,最典型的应用就是英特尔 CPU 封装。

2.5D/3D 封装:属于高密度先进封装(HDAP)与系统级封装(SiP)结合的子集, 大量运用在集成度高的高端产品如 AI 算力芯片。随着对便携式移动数据访问设备的需求 快速增长,市场对功能融合和封装复杂性的要求也在提升。同时对更高集成度、更好电气性能、更低时延以及更短垂直互连的要求正在迫使封装技术从 2D 封装向更先进的 2.5D 和 3D 封装设计转变。2.5D 封装及 3D 封装为 SiP 概念的子集,专注于多芯片的堆叠和并 列 技 术 , 从 应 用 方 面 来 看 , 多 应 用 在 集 成 度 较 高 的 产 品 , 包 括 传 感 器 产 品 (MEMS/CIS/Sensor)、高性能计算产品(CPU/GPU/HPC)、网通设备等,从制造端看, 2.5D/3D 封装可以由有中介层(interposer)的一般封装、以及无中介层的扇出型晶圆级实现。

——多芯片基板型:2.5D/3D Integration 立体结构 I/O 数量多,多用在高端集成性产 品。2.5D/3D Integration 为 SiP 封装与 PoP (Package on Package)概念结合。2.5D 及 3D 结构的内部封装用到倒装芯片技术以及 TSV 技术等进行互连,TSV 为解决基板布线密度 不足的技术,使用垂直互连通孔和高密度金属布线的 TSV 转接板(Silicon Interposer),通 过转接板上的 TSV 结构、微凸点(Bump)等,实现高密度的互连,I/O 数可以达上千个以上。 2.5D 封装主要的概念是将处理器、存储器或是其他的芯片,并列排在硅中介板上,先经由 微凸块连结,让硅中介板之内金属线可连接不同芯片的电信号;接着透过硅穿孔来连结下 方的金属凸块,再经由载板连结外部金属球,实现芯片、芯片与基板之间更紧密的互连。 3D IC 封装是在芯片制作 CMOS 结构,直接使用硅穿孔来连结上下不同芯片的电子信号, 不使用中介层,将存储器或其他芯片垂直堆叠在其他芯片上面。2.5/3D Integration 大量 运用在高性能、高集成的产品上,包括 AI 服务器、HPC 等多种高端应用领域中使用的 FPGA、CPU、GPU 等。

——多芯片晶圆型:2.5D/3D Fan-out 应用在高端移动设备终端。2.5D/3D Fan-out 由扇出型晶圆级封装发展而来,归属扇出型封装一类,其 I/O 数可高达数千个,是目前最 先进的封装技术,被大量运用在应用在移动设备终端,包括用于 CPU、GPU、电源管理 芯片、射频收发器芯片、基带处理器、高端网络系统等多种高端应用领域,晶圆代工厂进 入 2.5D/3D Fan-out 且引领整个行业。

2.5D/3D 封装市场空间:Yole 预计到 2025 年全球营收规模 118.2 亿美元,对应 CAGR (2021-2025)达 15.7%,芯片互连方式为立体封装关键。近年来 5D/3D 封装规模成长迅 速。Yole 预测,2.5D/3D 封装出货量将从 2021 的 30.8 亿件增长至 2025 年的 50.3 亿件, 对应 CAGR 达 13.1%;全球营收规模将从 2021 年的 66.1 亿美元增加至 2025 年的 118.2 亿美元,对应 CAGR 高达 15.7%。

厂商布局:2.5D/3D 封装专注于立体封装技术,因此芯片的互连成为其关键问题,各 大厂商均着力于解决立体结构的物理连接,以制造出体积小、集成度高、速度快、功耗小 的封装产品。晶圆代工厂中,以台积电、英特尔、三星的 2.5D/3D 封装技术为主要市场指 标,技术居国际顶尖。具体来看:

(1)台积电:3D Fabric 平台强力进击三维封装,前段封装占据绝对优势。台积电 在 2020 年 8 月将旗下 3DIC 技术平台并命名为 3D Fabric,包括 SoIC、InFO、CoWoS三大封装技术,台积电跨足前道封装(SoIC)和后道封装(CoWoS, InFO),前道封装是在晶 圆上,将同质或异构小芯片都整合到一个类似 SoC 的芯片中,让芯片有更小的面积和更 薄的外形,芯片就像普通的 SoC 一样,但嵌入了所需的异质整合功能,例如制作 3D TSV 连接通道,这种技术在设计阶段就要考虑并协同设计,由于本质是在做一颗 SoC 芯片, 因此只有晶圆厂可以做,尤其是需要先进制程产品,台积电具绝对优势。后道封装为将前 道封装完成的芯片搭配立体封装技术,如台积电的 CoWoS 和 InFO,而后道封装技术是 其他封测厂商积极跨入的领域,晶圆代工厂不会独占,成为行业竞争最激烈的一块领域。

——CoWoS®:2011 年推出 2012 年量产,全称 Chip on Wafer on Substrate,有 CoWoS-S、CoWoS-R、CoWoS-L 三种,S 为最常见的硅中介层、R 为 RDL(重布层)、L 为 LSI(嵌入式)。CoWoS-S 为最早开发的系列,芯片通过 Chip on Wafer(CoW)的封装制 程连接至硅晶圆,再把 CoW 芯片与基板(Substrate)连接,整合成 CoWoS。CoWoS-R 为 扇出型晶圆级封装,使用重布层连接。CoWoS-L 也是扇出型晶圆级,为 CoWoS-S 和 InFO 技术的结合,使用局部硅互连嵌入在重布层进行整合。CoWoS®系列为台积电历史最悠久 的技术,适用高速运算产品。

CoWoS 技术是目前 HBM(High Bandwidth Memory,高带宽存储器)与 CPU/GPU 处理器集成的主流方案,核心受益于云端 AI 算力需求爆发式增长。根据 Counterpoint, 在 CoWoS 封装过程中,首先逻辑电路和 HBM 并排键合在硅中介层上,形成 CoW,在器 件之间实现细间距和高密度互连布线,其中,每个 HBM 均由带有微凸块的 DRAM 和带 有直通 TSV 的逻辑基座组成(TSV 是电气连接路径,是穿过硅晶圆或芯片的短垂直柱, 可实现更小的封装尺寸和更密集的互连,通过缩短电气传输距离来提高电气性能,并实现 HBM 等产品中使用的多个芯片的堆叠);最后,在封装基板上完成具有较大凸块的 TSV 中介层的组装。

——InFO:2016 年推出,全称为 Integrated Fan-Out,包括 InFO_oS、InFO_PoP 等。InFO-oS 为扇出型晶圆级封装,与 CoWoS-L 相似,使用局部硅互连将多个 InFO die 连接在一起,并且嵌入在重布层内,InFO 系列封装适用小芯片的消费性产品封装。 InFO_PoP 为全球第一个 3D 扇出晶圆级封装,上方通常为 DRAM 互连至基板,再通过凸 块与下方扇出型晶圆级封装的处理器进行连接,形成立体结构,适用移动装置。

——SoIC™:2019 年推出,2021 年量产,全称为 System of Integrated chips,包含 CoW(Chip on Wafer)/WoW(Wafer on Wafer)两种方案,为目前全球最领先的 3D IC 内部 堆叠互连技术之一,CoW 为单芯片去做互连,WoW 直接用整块晶圆去做互连,SoIC™主 要实现多个 die 堆叠的 3D 构造块,在垂直堆叠的芯片之间的每平方毫米空间能够实现约 10,000 个互连,超越了过去的中介层或芯片堆叠的实现方式,允许在不使用任何微凸点的 情况下堆叠硅芯片,直接将硅的金属层对准并键合到硅芯片上(类似 Intel 的 Hybrid Bonding),能对 10 纳米以下的制程进行晶圆级的接合技术,适合高频宽、高效率的逻辑 与存储的堆叠,且不但能用于主动器件之间的堆叠,还能实现主动器件到被动器件的堆叠。 相较于传统 3D IC,SoIC 的 Bump/bond 密度增加 16 倍,Bump/bond 间距缩小 0.23 倍, 为目前最先进的堆叠互连技术之一。

(2)英特尔:2.5D/3D 应用时间晚于台积电,产品定位以封装自家产品为主。英特 尔也在积极布局 2.5D/3D 封装领域,其封装产品量产时间晚于台积电,其 2.5D EMIB 技 术可以对标台积电的 CoWoS 技术,3D Foveros 技术可以对标台积电的 InFO 技术,根据 英特尔目前的计划,其封装技术将用在自家系列的产品上,我们预计对于市场造成的冲击 影响相对较小。

——EMIB:2017 年发布,全称为 Embedded Multi-Die Interconnect Bridge,属于 2.5D 技术(横向),使用嵌入在封装基板内、用来连接裸晶的硅桥(Silicon Bridge) ,与台 积电 CoWoS-L 有异曲同工之妙,但台积电使用的是扇出型晶圆级制程 RDL(重布层),而 英特尔使用的是基板,EMIB 的好处是提供高带宽、低功耗连接,坏处是不利裸晶多且互 连要求高的产品,于 2019 年开始量产,目前已出货超过 200 万个以 EMIB 封装的芯片。

——Foveros:2018 年推出,对标台积电的 InFO,属于 3D 技术(纵向),最下边是 封装基底,基底之上安放一个底层芯片(Bottom Chip),起到主动中介层(Active Interposer) 的作用,底层芯片之上就可以放置各种不同的芯片或模块,两者用面对面的方式连接 (Face-to-Face bonding),而在底层芯片里有 TSV 3D 硅穿孔,负责连通上下的焊料凸起 (Solder Bump) ,让上层芯片和模块与系统其他部分连通,最后再将底层芯片与基板连接, 完成内部封装。

其他海外厂商方面:三星 2.5D/3D 技术发布时间晚于台积电和英特尔,应用产品仍较 少;日月光 2.5D 封装技术先驱,3D IC 封装持续开发测试阶段。

——三星:2019 年,三星成立 SAFE 专注于先进封装技术开发,目前旗下有 2.5D 的 I-cube对标台积电 CoWoS和英特尔 EMIB、3D X-cube 对标台积电 InFO和英特尔Foveros。 自 2016 年被台积电抢走苹果处理器订单后,三星开始在先进封装领域大力布局,目前对 应的产品推出时间都晚于台积电和英特尔,处于落后状态,应用产品仍少。但在 3D IC 方 面,三星具有优势,因为其同时拥有存储器 DRAM 和处理器的制造技术,而台积电并没有 先进 DRAM 技术,因此在 3D 异质整合上三星或具优势。

——日月光:日月光为全球最大封测厂,技术最领先及产品面最广,为 2.5D/3D 封装 技术先驱之一,研发时间超过十多年,推出了世界上第一个配备高带宽存储器(HBM)的 2.5D IC 封装的批量生产。目前公司 2.5D 封装实现方式为 TSV 中介层连接以及用扇出型 晶圆级封装的重布线连接,2.5D 技术基本上与台积电 CoWoS、英特尔 EMIB、三星 I-Cube 为同一层级技术实现。3D 封装主要透过扇出型封装堆叠完成,对标台积电 InFO-PoP。日 月光 2015 年就开始量产 2.5D 封装,超威、辉达等均为第一批客户,目前正在积极开发 3D IC 堆叠技术,为 OSAT 中技术最顶尖的厂商之一。

国内厂商方面:长电科技的 2.5D/3D 封装可以依结构分为封装等级、晶圆级等级、硅 互连等级三大类,技术与日月光相近。其中,封装等级为需要基板和引线框架的封装,系 列包含堆叠芯片封装 Stacked Die(SD)、层叠封装 PoP、封装内封装 PiP;晶圆级等级为 晶圆级封装,运用 RDL 重布线进行互连;硅互连尚在研发中。长电持续朝向类似台积电 SoIC 的 3D IC 发展。

——(1)2.5D:公司研发的 2.5D eWLB 通过将一个有源芯片连接到另一个有源芯片, 实现密集互联和有效散热,在提高加工速度的同时能够更为灵活地集成来自不同制造源的 芯片。据公司官网,公司的 2.5D eWLB 解决方案在整体成效和工艺简化方面优于 TSV。

——(2)3D:公司的 3D 系统级封装(SiP)及封装级封装(PoP)解决方案包括嵌 入式多个无源和有源组件。对于需要 3D 集成的应用场景,公司的 face-to-face eWLB PoP 配置通过 eWLB 模具层在应用处理芯片和内存芯片之间实现垂直互联,以实现高带宽与精 细的间距结构,经检测其性能与 TSV 技术相当。

长电 XDFOI™ Chiplet 高密度多维异构集成系列工艺已按计划进入稳定量产阶段,同 步实现国际客户4nm节点多芯片系统集成封装产品出货,最大封装体面积约为 1500mm²。 2021 年 7 月,公司顺应先进封装发展趋势正式推出 XDFOI™多维先进封装技术,该技术 是一种面向 Chiplet 的极高密度、多扇出型封装高密度异构集成解决方案,利用协同设计 理念实现芯片成品集成与测试一体化,涵盖 2D/2.5D/3D 集成技术,能够为客户提供从常 规密度到极高密度,从极小尺寸到极大尺寸的一站式服务。作为一种新型无硅通孔(TSV) 晶圆级极高密度封装技术,XDFOI™技术可以将有机重布线堆叠中介层厚度控制在 50μm 以内,微凸点(µBump)中心距为 40μm,并可集成多颗芯片、高带宽内存(HBM)和 无源器件,实现最大封装体面积约为 1500mm²的系统级封装。2023 年 1 月,公司 XDFOI ™ Chiplet高密度多维异构集成系列工艺已按计划进入稳定量产阶段,应用于高性能计算、 人工智能、5G、汽车电子等领域,同步实现国际客户 4nm 节点多芯片系统集成封装产品 出货。 展望未来,公司将逐渐发挥 XDFOI™技术平台的多样性优势,与国内外产业链共同合 作,大力研发和布局 interposer, silicon bridge 和 Hybrid bonding 技术方案。其中,在 interposer 领域,公司与晶圆厂合作为客户提供高效可靠的芯片到 interposer 和 interposer 到基板的互联;而对于互联密度要求更高的客户,公司提供 silicon bridge和 Hybrid bonding 的技术及产能支持。我们看好公司在 Chiplet 快速发展过程中的成长空间。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至