2025年AI专题之NPU行业分析:专为端侧AI而生的神经网络加速器

  • 来源:中泰证券
  • 发布时间:2025/04/22
  • 浏览次数:735
  • 举报
相关深度报告REPORTS

AI专题之NPU行业分析:专为端侧AI而生的神经网络加速器.pdf

AI专题之NPU行业分析:专为端侧AI而生的神经网络加速器。人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进,1989年贝尔实验室的杨立昆(YannLeCun)等人一起开发了可以通过训练来识别手写邮政编码的神经网络,但那个时期训练一个深度学习卷积神经网络(ConvolutionalNeuralNetwork,CNN)需要长达3天,因此无法实际使用。硬件计算能力的不足,导致了当时AI科技泡沫的破灭。更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU,但直到2009年斯坦福大学才...

一、专为端侧AI而生的神经网络加速器

与GPU定位云端AI不同,NPU是端侧AI时代新需求

人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路AI芯 片。AI的发展一直伴随着半导体芯片的演进,1989年贝尔实验室的杨立昆(Yann LeCun)等人一起开发了可以通过训练来 识别手写邮政编码的神经网络,但那个时期训练一个深度学习卷积神经网络(Convolutional Neural Network,CNN)需要长 达3天,因此无法实际使用。硬件计算能力的不足,导致了当时AI科技泡沫的破灭。

更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU,但直到2009年斯坦福大学才发表论文介绍了如何 利用现代GPU实现远超过多核CPU的计算能力(超过70倍),把AI训练时间从几周缩短到了几小时。算力、模型一直是AI 发展的要素,而芯片所代表的算力则是人工智能的底层基石。

传统CPU及GPU架构在处理AI任务时面临的瓶颈包括:算力、功耗、成本、内存/带宽瓶颈等。 CPU的主要局限在于计算并行能力不足:传统的 CPU 架构在设计上更侧重于顺序执行和复杂逻辑控制,其核心数量和并行处理 能力相对有限,在处理 AI 相关任务时速度较慢,无法满足AI 应用的需求。GPU的主要局限在于功耗和成本:GPU擅长云端的大数据集计算,端侧的计算数据量相对云端更小,同时对功耗有严格限制, 叠加成本因素,端侧应用受限。 CPU与GPU均有内存及批处理限制问题:CPU和GPU计算过程均存在内存瓶颈,需要采用批处理方式加载数据和权重进行计算, 难以同时满足高吞吐量和低延迟的需求。

NPU是专用加速芯片,适用于乘法累加运算

NPU专用于AI运算,核心是矩阵乘法运算,CNN是主要算法之一,本质上由大量的乘法累加计算组成。 CNN是一种专门用于处理具有网格状结构数据的深度学习算法,广泛应用于图像分类、目标检测和语义分割等,包含卷积 层、池化层和全连接层。以图像处理为例,卷积神经网络需要将大数据量的图片降维成小数据量。神经网络卷积层通过卷 积核扫描图片,提取图片局部特征。再通过池化层对数据进行降维和防止过拟合,最后在全连接层输出。如图所示,卷积 的本质就是简单乘积和运算,小矩阵(卷积核)上的元素和输入矩阵对应数据相乘并求和,输出矩阵单个值,这个过程在 输入的矩阵上移动进行,从而生成整个更低维的输出矩阵。相应处理这种运算的单元被称为乘积累加器,MAC运算的操作 就是计算两个数的乘积并将该乘积添加到累加器中,即a ← a + ( b × c )。

NPU显著提升AI模型运行效率

对于部分DNN模型,NPU单独运行即可在保持精度几乎无损的同时显著减少处理时间; 三星NPU案例:运行3种DNN模型,NPU 运行速度比 CPU 快 95%甚至以上。但不同模型在 NPU 上的精度损失不同,VGG模 型几乎没有损失,VocNet 精度损失 30%,YOLO 损失50%以上。 精度损失一是因为NPU特性,二也取决于模型种类。NPU 仅支持 FP16 运算,并使用 FP16 存储每一层的中间结果,浮点溢 出或下溢会引起使用FP16 时的数值不稳定性;VocNet 模型和 Yolo 模型比 VGG 模型更复杂,VGG 模型是比较从人脸图像中 提取的两个特征向量之间的相似度,NPU 引入的小误差可能会改变特征向量中的值,但绝大多数情况下不会影响结果,但 VocNet 和 Yolo 特征向量中的每个值都代表一个物体的类别、位置或大小,NPU 引入的一个小误差就可能完全改变预测结果。

二、卡位端侧下游,迎需求爆发

Al端侧爆发在即,NPU有望快速上量

NPU专为实现以低功耗加速AI推理而设计,伴随新AI应用、模型与需求的发展,NPU有望快速上量。 早期(2015年前)NPU面向音频和语音AI,基于简单卷积神经网络(CNN),主要需要标量和向量数学运算;2016 年起,顺应图像和视频AI 需求,出现基于 Transformer、循环神经网络(RNN)、长短期记忆网络(LSTM)和更高维度 CNN 等复杂新模型,工作负载需大量张量数学运算,NPU 增加张量加速器和卷积加速,配置大共享内存和专用硬件提升性能, 降低内存带宽占用和能耗; 2023年后,LLM和LVM(大视觉)模型提升至百亿级参数以上,除计算需求外,NPU还需考虑内存和系统设计,提高性能和能效。

GenAI手机:AI算力提升带来需求端爆发

在智能手机上运行端侧生成式AI(如Stable Diffusion和部分LLM)的AI 算力门槛约为30TOPS,旗舰智能机在2021-22年逐步达到 这一标准、且仍在进步,预计2025年将达到60TOPS以上。 根据IDC预测,全球生成式AI智能手机的出货量在2023-2028的CAGR将达到78%,2028年出货量将增长至9.1亿部;2024年是GenAI 手机爆发元年(yoy:364%)。 生成式AI应用的繁荣,将驱动所需算力的实质性增长。根据高通白皮书,每天基于生成式AI的搜索查询超过100亿次,其中移动端 占比超过60%;智能手机基于精准的端侧用户画像,与大模型结合,伴随对话功能的不断改进,将逐步成为真正的个人助手。据 Counterpoint预测,2027年GenAI手机端侧整体AI算力将会达到50000EOPS以上。

AI PC:个人大模型最佳载体之一,NPU渗透率望快速提升

AI PC加速渗透。随大模型计算负载部分下沉至本地,个人大模型的需求日益增长,其普惠要求正契合PC端优势。 AI PC是包含AI模型、应用以 及硬件设备的混合体,能为用户提供通用场景下的个性化服务,提升生产力,同时降低大模型使用成本,并提升隐私保障度,据IDC预测,至28 年预计AI PC渗透率98%,当年出货量达到2.67亿台。 NPU在AI PC中的渗透率预计快速提升:根据IDC预测, 23-28年 AI PC 的CAGR 为42%,按搭载AI的加速器品种分类,同时搭载NPU和GPU的 AI PC的CAGR将达156%,仅搭载NPU的CAGR为58%,到2028年,将仅有5.2%的PC不配备NPU,NPU在PC中的渗透率达到94.8%。

三、产业趋势:近存计算大趋势,3D DRAM+NPU方案有望受益

存算一体是NPU打破计算瓶颈的主要方式

除算力指标外,内存墙、功耗墙也影响NPU实际利用率。内存墙是指在实际应用中,NPU堆MAC单元能够拉高算力指标, 但会受内存带宽限制,导致数据的传输速率不足,MAC单元不断等待,实际处理性能下降的现象;功耗墙是指计算单元存 算分离设计导致数据重复搬移,共享困难,数据在多级存储间传输,能耗大。随着AI发展,端侧数据量逐步提升,数据的 传输速度不足以及能耗高也逐步成为限制NPU性能的瓶颈。

存算一体及混合精度是解决NPU在AI计算瓶颈的主要方式。混合精度是通过软件技术,将不同精度的浮点数进行数值计算, 从而减少数据搬运,可以一定程度提高NPU效率。而存算一体则是从底层架构上,彻底解决NPU的算力瓶颈,其核心是将 计算和存储融合,降低“内存墙”问题,实现计算能效的数量级提升。谷歌基于边缘设备运行神经网络模型,发现1) 62.7%的系统能耗是花费在数据移动上;2)数据移动主要来自内存中的简单函数,如乘累加等,因此解决内存墙,核心是 要将计算函数搬移到数据存储的地方,而非把数据搬移到处理器中进行计算。

存内计算难度大,近存计算和存内处理是重要方向

传统存算分离架构带来存储墙问题。 上世纪40年代开始计算机使用冯诺伊曼架构——存算分离,即处理器和存储器相互独立,两者通过总线连接。1)存算分离,数 据存算间传输造成延迟。处理器从外部存储中调取数据,计算完成后再传输到内存中,一来一回都会造成延迟。2)数据在多级 存储间传输。为了提升速度,冯诺依曼架构对存储进行分级,越往外的存储介质密度越大、速度越慢,越往内的存储密度越小, 速度越快,因此数据需要在多级存储之间搬运,能耗大。通常第一级存储是速度最快、容量低,主要是SRAM片上缓存,第二 级是传统DDR。 3)存储制程推进慢于逻辑。目前DRAM制程最先进仍在10-15nm左右,而逻辑制程已进入3nm,主要是因存储 器制程缩小难度更大。 随着近几年云计算和AI应用发展,面对计算中心的数据洪流,存算分离架构下数据搬运慢、搬运能耗大等问题成为了计算的关 键瓶颈,“存储墙”问题更加显著。

四、海外大厂持续迭代推动端侧AI布局,国产厂商加速布局

NPU发展历程:算力攀升,场景突破

Intel的NPU发展起步相对高通较晚,与其在传统CPU上的路径依赖以及早期对移动市场的相对忽视(前CEO 保罗・欧德宁 拒绝了将英特尔处理器应用于第一代苹果 iPhone 的机会)有一定关系。 Intel近两年NPU的迭代速度较快。2023年推出的NPU 3 是Intel第一代真正意义上的NPU产品,2024年的NPU 4便达到 48TOPS的峰值AI性能,是前代的约4倍。考虑功耗,NPU 4在同等功耗下的表现是前代的2倍。

三星NPU迭代:算法优化+更多MAC集成

以三星为例,第1代&第2代: 性能提升关键在于“权重剪枝”,NPU中典型权重张量的稀疏度可超 50%,NPU 会利用这种权重稀疏性进行零跳跃操作(预 先识别哪些权重为0,跳过其对应输入特征图(Feature Map)的计算过程),提高计算效率。 MAC结构:为基于累加器的点积形式,在输入通道方向4 路并行,但每个输入通道单独计算,最终结果合并前各自独立,缺 乏加法树,无归约操作,需大量寄存器存储部分和(PSUM)值。 数据处理和传输:整体 FM 可在空间方向预先分区为基本数据交易单元 Cell,随着输入和输出通道方向并行度的增加,用于 选取和组合 FM 单元的多路复用器开销会不断增大;并且在网络中存在许多宽度和高度较小的层时,利用大规模空间并行性 可能会导致计算利用率低下。

Intel NPU迭代:增加计算引擎数和内存带宽

Intel NPU 4 ,较前代NPU3,提升神经计算引擎数至12个,内存带宽增至2倍,同时可访问计算模块上的8MB共享端缓存, 共同提升了效率。 每个神经计算引擎中,都嵌入了推理链路——包括 MAC 阵列和专用 DSP,专为众多并行操作而构建,NPU4上的SHAVE DSP 经过优化,单个矢量计算能力是上一代的四倍,可以处理更复杂的神经网络。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至