2025年AI专题之NPU行业分析：专为端侧AI而生的神经网络加速器

来源：中泰证券
发布时间：2025/04/22
浏览次数：735
举报

相关深度报告REPORTS

AI专题之NPU行业分析：专为端侧AI而生的神经网络加速器.pdf

AI专题之NPU行业分析：专为端侧AI而生的神经网络加速器。人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法，其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进，1989年贝尔实验室的杨立昆（YannLeCun）等人一起开发了可以通过训练来识别手写邮政编码的神经网络，但那个时期训练一个深度学习卷积神经网络（ConvolutionalNeuralNetwork，CNN）需要长达3天，因此无法实际使用。硬件计算能力的不足，导致了当时AI科技泡沫的破灭。更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU，但直到2009年斯坦福大学才...

一、专为端侧AI而生的神经网络加速器

与GPU定位云端AI不同，NPU是端侧AI时代新需求

人工智能的发展主要依赖两个领域的创新和演进：一是模仿人脑建立起来的数学模型和算法，其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进，1989年贝尔实验室的杨立昆（Yann LeCun）等人一起开发了可以通过训练来识别手写邮政编码的神经网络，但那个时期训练一个深度学习卷积神经网络（Convolutional Neural Network，CNN）需要长达3天，因此无法实际使用。硬件计算能力的不足，导致了当时AI科技泡沫的破灭。

更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU，但直到2009年斯坦福大学才发表论文介绍了如何利用现代GPU实现远超过多核CPU的计算能力（超过70倍），把AI训练时间从几周缩短到了几小时。算力、模型一直是AI 发展的要素，而芯片所代表的算力则是人工智能的底层基石。

传统CPU及GPU架构在处理AI任务时面临的瓶颈包括：算力、功耗、成本、内存/带宽瓶颈等。 CPU的主要局限在于计算并行能力不足：传统的 CPU 架构在设计上更侧重于顺序执行和复杂逻辑控制，其核心数量和并行处理能力相对有限，在处理 AI 相关任务时速度较慢，无法满足AI 应用的需求。GPU的主要局限在于功耗和成本：GPU擅长云端的大数据集计算，端侧的计算数据量相对云端更小，同时对功耗有严格限制，叠加成本因素，端侧应用受限。 CPU与GPU均有内存及批处理限制问题：CPU和GPU计算过程均存在内存瓶颈，需要采用批处理方式加载数据和权重进行计算，难以同时满足高吞吐量和低延迟的需求。

NPU是专用加速芯片，适用于乘法累加运算

NPU专用于AI运算，核心是矩阵乘法运算，CNN是主要算法之一，本质上由大量的乘法累加计算组成。 CNN是一种专门用于处理具有网格状结构数据的深度学习算法，广泛应用于图像分类、目标检测和语义分割等，包含卷积层、池化层和全连接层。以图像处理为例，卷积神经网络需要将大数据量的图片降维成小数据量。神经网络卷积层通过卷积核扫描图片，提取图片局部特征。再通过池化层对数据进行降维和防止过拟合，最后在全连接层输出。如图所示，卷积的本质就是简单乘积和运算，小矩阵（卷积核）上的元素和输入矩阵对应数据相乘并求和，输出矩阵单个值，这个过程在输入的矩阵上移动进行，从而生成整个更低维的输出矩阵。相应处理这种运算的单元被称为乘积累加器，MAC运算的操作就是计算两个数的乘积并将该乘积添加到累加器中，即a ← a + ( b × c )。

NPU显著提升AI模型运行效率

对于部分DNN模型，NPU单独运行即可在保持精度几乎无损的同时显著减少处理时间；三星NPU案例：运行3种DNN模型，NPU 运行速度比 CPU 快 95%甚至以上。但不同模型在 NPU 上的精度损失不同，VGG模型几乎没有损失，VocNet 精度损失 30%，YOLO 损失50%以上。精度损失一是因为NPU特性，二也取决于模型种类。NPU 仅支持 FP16 运算，并使用 FP16 存储每一层的中间结果，浮点溢出或下溢会引起使用FP16 时的数值不稳定性；VocNet 模型和 Yolo 模型比 VGG 模型更复杂，VGG 模型是比较从人脸图像中提取的两个特征向量之间的相似度，NPU 引入的小误差可能会改变特征向量中的值，但绝大多数情况下不会影响结果，但 VocNet 和 Yolo 特征向量中的每个值都代表一个物体的类别、位置或大小，NPU 引入的一个小误差就可能完全改变预测结果。

二、卡位端侧下游，迎需求爆发

Al端侧爆发在即，NPU有望快速上量

NPU专为实现以低功耗加速AI推理而设计，伴随新AI应用、模型与需求的发展，NPU有望快速上量。早期（2015年前）NPU面向音频和语音AI，基于简单卷积神经网络（CNN），主要需要标量和向量数学运算；2016 年起，顺应图像和视频AI 需求，出现基于 Transformer、循环神经网络（RNN）、长短期记忆网络（LSTM）和更高维度 CNN 等复杂新模型，工作负载需大量张量数学运算，NPU 增加张量加速器和卷积加速，配置大共享内存和专用硬件提升性能，降低内存带宽占用和能耗； 2023年后，LLM和LVM（大视觉）模型提升至百亿级参数以上，除计算需求外，NPU还需考虑内存和系统设计，提高性能和能效。

GenAI手机：AI算力提升带来需求端爆发

在智能手机上运行端侧生成式AI（如Stable Diffusion和部分LLM）的AI 算力门槛约为30TOPS，旗舰智能机在2021-22年逐步达到这一标准、且仍在进步，预计2025年将达到60TOPS以上。根据IDC预测，全球生成式AI智能手机的出货量在2023-2028的CAGR将达到78%，2028年出货量将增长至9.1亿部；2024年是GenAI 手机爆发元年（yoy：364%）。生成式AI应用的繁荣，将驱动所需算力的实质性增长。根据高通白皮书，每天基于生成式AI的搜索查询超过100亿次，其中移动端占比超过60%；智能手机基于精准的端侧用户画像，与大模型结合，伴随对话功能的不断改进，将逐步成为真正的个人助手。据 Counterpoint预测，2027年GenAI手机端侧整体AI算力将会达到50000EOPS以上。

AI PC：个人大模型最佳载体之一，NPU渗透率望快速提升

AI PC加速渗透。随大模型计算负载部分下沉至本地，个人大模型的需求日益增长，其普惠要求正契合PC端优势。 AI PC是包含AI模型、应用以及硬件设备的混合体，能为用户提供通用场景下的个性化服务，提升生产力，同时降低大模型使用成本，并提升隐私保障度，据IDC预测，至28 年预计AI PC渗透率98%，当年出货量达到2.67亿台。 NPU在AI PC中的渗透率预计快速提升：根据IDC预测， 23-28年 AI PC 的CAGR 为42%，按搭载AI的加速器品种分类，同时搭载NPU和GPU的 AI PC的CAGR将达156%，仅搭载NPU的CAGR为58%，到2028年，将仅有5.2%的PC不配备NPU，NPU在PC中的渗透率达到94.8%。

三、产业趋势：近存计算大趋势，3D DRAM+NPU方案有望受益

存算一体是NPU打破计算瓶颈的主要方式

除算力指标外，内存墙、功耗墙也影响NPU实际利用率。内存墙是指在实际应用中，NPU堆MAC单元能够拉高算力指标，但会受内存带宽限制，导致数据的传输速率不足，MAC单元不断等待，实际处理性能下降的现象；功耗墙是指计算单元存算分离设计导致数据重复搬移，共享困难，数据在多级存储间传输，能耗大。随着AI发展，端侧数据量逐步提升，数据的传输速度不足以及能耗高也逐步成为限制NPU性能的瓶颈。

存算一体及混合精度是解决NPU在AI计算瓶颈的主要方式。混合精度是通过软件技术，将不同精度的浮点数进行数值计算，从而减少数据搬运，可以一定程度提高NPU效率。而存算一体则是从底层架构上，彻底解决NPU的算力瓶颈，其核心是将计算和存储融合，降低“内存墙”问题，实现计算能效的数量级提升。谷歌基于边缘设备运行神经网络模型，发现1） 62.7%的系统能耗是花费在数据移动上；2）数据移动主要来自内存中的简单函数，如乘累加等，因此解决内存墙，核心是要将计算函数搬移到数据存储的地方，而非把数据搬移到处理器中进行计算。

存内计算难度大，近存计算和存内处理是重要方向

传统存算分离架构带来存储墙问题。上世纪40年代开始计算机使用冯诺伊曼架构——存算分离，即处理器和存储器相互独立，两者通过总线连接。1）存算分离，数据存算间传输造成延迟。处理器从外部存储中调取数据，计算完成后再传输到内存中，一来一回都会造成延迟。2）数据在多级存储间传输。为了提升速度，冯诺依曼架构对存储进行分级，越往外的存储介质密度越大、速度越慢，越往内的存储密度越小，速度越快，因此数据需要在多级存储之间搬运，能耗大。通常第一级存储是速度最快、容量低，主要是SRAM片上缓存，第二级是传统DDR。 3）存储制程推进慢于逻辑。目前DRAM制程最先进仍在10-15nm左右，而逻辑制程已进入3nm，主要是因存储器制程缩小难度更大。随着近几年云计算和AI应用发展，面对计算中心的数据洪流，存算分离架构下数据搬运慢、搬运能耗大等问题成为了计算的关键瓶颈，“存储墙”问题更加显著。

四、海外大厂持续迭代推动端侧AI布局，国产厂商加速布局

NPU发展历程：算力攀升，场景突破

Intel的NPU发展起步相对高通较晚，与其在传统CPU上的路径依赖以及早期对移动市场的相对忽视（前CEO 保罗・欧德宁拒绝了将英特尔处理器应用于第一代苹果 iPhone 的机会）有一定关系。 Intel近两年NPU的迭代速度较快。2023年推出的NPU 3 是Intel第一代真正意义上的NPU产品，2024年的NPU 4便达到 48TOPS的峰值AI性能，是前代的约4倍。考虑功耗，NPU 4在同等功耗下的表现是前代的2倍。

三星NPU迭代：算法优化+更多MAC集成

以三星为例，第1代&第2代：性能提升关键在于“权重剪枝”，NPU中典型权重张量的稀疏度可超 50%，NPU 会利用这种权重稀疏性进行零跳跃操作（预先识别哪些权重为0，跳过其对应输入特征图（Feature Map）的计算过程），提高计算效率。 MAC结构：为基于累加器的点积形式，在输入通道方向4 路并行，但每个输入通道单独计算，最终结果合并前各自独立，缺乏加法树，无归约操作，需大量寄存器存储部分和（PSUM）值。数据处理和传输：整体 FM 可在空间方向预先分区为基本数据交易单元 Cell，随着输入和输出通道方向并行度的增加，用于选取和组合 FM 单元的多路复用器开销会不断增大；并且在网络中存在许多宽度和高度较小的层时，利用大规模空间并行性可能会导致计算利用率低下。

Intel NPU迭代：增加计算引擎数和内存带宽

Intel NPU 4 ，较前代NPU3，提升神经计算引擎数至12个，内存带宽增至2倍，同时可访问计算模块上的8MB共享端缓存，共同提升了效率。每个神经计算引擎中，都嵌入了推理链路——包括 MAC 阵列和专用 DSP，专为众多并行操作而构建，NPU4上的SHAVE DSP 经过优化，单个矢量计算能力是上一代的四倍，可以处理更复杂的神经网络。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）