2025年AI专题之NPU行业分析:专为端侧AI而生的神经网络加速器
- 来源:中泰证券
- 发布时间:2025/04/22
- 浏览次数:735
- 举报
AI专题之NPU行业分析:专为端侧AI而生的神经网络加速器.pdf
AI专题之NPU行业分析:专为端侧AI而生的神经网络加速器。人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路AI芯片。AI的发展一直伴随着半导体芯片的演进,1989年贝尔实验室的杨立昆(YannLeCun)等人一起开发了可以通过训练来识别手写邮政编码的神经网络,但那个时期训练一个深度学习卷积神经网络(ConvolutionalNeuralNetwork,CNN)需要长达3天,因此无法实际使用。硬件计算能力的不足,导致了当时AI科技泡沫的破灭。更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU,但直到2009年斯坦福大学才...
一、专为端侧AI而生的神经网络加速器
与GPU定位云端AI不同,NPU是端侧AI时代新需求
人工智能的发展主要依赖两个领域的创新和演进:一是模仿人脑建立起来的数学模型和算法,其次是半导体集成电路AI芯 片。AI的发展一直伴随着半导体芯片的演进,1989年贝尔实验室的杨立昆(Yann LeCun)等人一起开发了可以通过训练来 识别手写邮政编码的神经网络,但那个时期训练一个深度学习卷积神经网络(Convolutional Neural Network,CNN)需要长 达3天,因此无法实际使用。硬件计算能力的不足,导致了当时AI科技泡沫的破灭。
更高效的架构有利于推动AI加速成熟。英伟达早在1999年就发明了GPU,但直到2009年斯坦福大学才发表论文介绍了如何 利用现代GPU实现远超过多核CPU的计算能力(超过70倍),把AI训练时间从几周缩短到了几小时。算力、模型一直是AI 发展的要素,而芯片所代表的算力则是人工智能的底层基石。
传统CPU及GPU架构在处理AI任务时面临的瓶颈包括:算力、功耗、成本、内存/带宽瓶颈等。 CPU的主要局限在于计算并行能力不足:传统的 CPU 架构在设计上更侧重于顺序执行和复杂逻辑控制,其核心数量和并行处理 能力相对有限,在处理 AI 相关任务时速度较慢,无法满足AI 应用的需求。GPU的主要局限在于功耗和成本:GPU擅长云端的大数据集计算,端侧的计算数据量相对云端更小,同时对功耗有严格限制, 叠加成本因素,端侧应用受限。 CPU与GPU均有内存及批处理限制问题:CPU和GPU计算过程均存在内存瓶颈,需要采用批处理方式加载数据和权重进行计算, 难以同时满足高吞吐量和低延迟的需求。
NPU是专用加速芯片,适用于乘法累加运算
NPU专用于AI运算,核心是矩阵乘法运算,CNN是主要算法之一,本质上由大量的乘法累加计算组成。 CNN是一种专门用于处理具有网格状结构数据的深度学习算法,广泛应用于图像分类、目标检测和语义分割等,包含卷积 层、池化层和全连接层。以图像处理为例,卷积神经网络需要将大数据量的图片降维成小数据量。神经网络卷积层通过卷 积核扫描图片,提取图片局部特征。再通过池化层对数据进行降维和防止过拟合,最后在全连接层输出。如图所示,卷积 的本质就是简单乘积和运算,小矩阵(卷积核)上的元素和输入矩阵对应数据相乘并求和,输出矩阵单个值,这个过程在 输入的矩阵上移动进行,从而生成整个更低维的输出矩阵。相应处理这种运算的单元被称为乘积累加器,MAC运算的操作 就是计算两个数的乘积并将该乘积添加到累加器中,即a ← a + ( b × c )。
NPU显著提升AI模型运行效率
对于部分DNN模型,NPU单独运行即可在保持精度几乎无损的同时显著减少处理时间; 三星NPU案例:运行3种DNN模型,NPU 运行速度比 CPU 快 95%甚至以上。但不同模型在 NPU 上的精度损失不同,VGG模 型几乎没有损失,VocNet 精度损失 30%,YOLO 损失50%以上。 精度损失一是因为NPU特性,二也取决于模型种类。NPU 仅支持 FP16 运算,并使用 FP16 存储每一层的中间结果,浮点溢 出或下溢会引起使用FP16 时的数值不稳定性;VocNet 模型和 Yolo 模型比 VGG 模型更复杂,VGG 模型是比较从人脸图像中 提取的两个特征向量之间的相似度,NPU 引入的小误差可能会改变特征向量中的值,但绝大多数情况下不会影响结果,但 VocNet 和 Yolo 特征向量中的每个值都代表一个物体的类别、位置或大小,NPU 引入的一个小误差就可能完全改变预测结果。
二、卡位端侧下游,迎需求爆发
Al端侧爆发在即,NPU有望快速上量
NPU专为实现以低功耗加速AI推理而设计,伴随新AI应用、模型与需求的发展,NPU有望快速上量。 早期(2015年前)NPU面向音频和语音AI,基于简单卷积神经网络(CNN),主要需要标量和向量数学运算;2016 年起,顺应图像和视频AI 需求,出现基于 Transformer、循环神经网络(RNN)、长短期记忆网络(LSTM)和更高维度 CNN 等复杂新模型,工作负载需大量张量数学运算,NPU 增加张量加速器和卷积加速,配置大共享内存和专用硬件提升性能, 降低内存带宽占用和能耗; 2023年后,LLM和LVM(大视觉)模型提升至百亿级参数以上,除计算需求外,NPU还需考虑内存和系统设计,提高性能和能效。
GenAI手机:AI算力提升带来需求端爆发
在智能手机上运行端侧生成式AI(如Stable Diffusion和部分LLM)的AI 算力门槛约为30TOPS,旗舰智能机在2021-22年逐步达到 这一标准、且仍在进步,预计2025年将达到60TOPS以上。 根据IDC预测,全球生成式AI智能手机的出货量在2023-2028的CAGR将达到78%,2028年出货量将增长至9.1亿部;2024年是GenAI 手机爆发元年(yoy:364%)。 生成式AI应用的繁荣,将驱动所需算力的实质性增长。根据高通白皮书,每天基于生成式AI的搜索查询超过100亿次,其中移动端 占比超过60%;智能手机基于精准的端侧用户画像,与大模型结合,伴随对话功能的不断改进,将逐步成为真正的个人助手。据 Counterpoint预测,2027年GenAI手机端侧整体AI算力将会达到50000EOPS以上。
AI PC:个人大模型最佳载体之一,NPU渗透率望快速提升
AI PC加速渗透。随大模型计算负载部分下沉至本地,个人大模型的需求日益增长,其普惠要求正契合PC端优势。 AI PC是包含AI模型、应用以 及硬件设备的混合体,能为用户提供通用场景下的个性化服务,提升生产力,同时降低大模型使用成本,并提升隐私保障度,据IDC预测,至28 年预计AI PC渗透率98%,当年出货量达到2.67亿台。 NPU在AI PC中的渗透率预计快速提升:根据IDC预测, 23-28年 AI PC 的CAGR 为42%,按搭载AI的加速器品种分类,同时搭载NPU和GPU的 AI PC的CAGR将达156%,仅搭载NPU的CAGR为58%,到2028年,将仅有5.2%的PC不配备NPU,NPU在PC中的渗透率达到94.8%。
三、产业趋势:近存计算大趋势,3D DRAM+NPU方案有望受益
存算一体是NPU打破计算瓶颈的主要方式
除算力指标外,内存墙、功耗墙也影响NPU实际利用率。内存墙是指在实际应用中,NPU堆MAC单元能够拉高算力指标, 但会受内存带宽限制,导致数据的传输速率不足,MAC单元不断等待,实际处理性能下降的现象;功耗墙是指计算单元存 算分离设计导致数据重复搬移,共享困难,数据在多级存储间传输,能耗大。随着AI发展,端侧数据量逐步提升,数据的 传输速度不足以及能耗高也逐步成为限制NPU性能的瓶颈。
存算一体及混合精度是解决NPU在AI计算瓶颈的主要方式。混合精度是通过软件技术,将不同精度的浮点数进行数值计算, 从而减少数据搬运,可以一定程度提高NPU效率。而存算一体则是从底层架构上,彻底解决NPU的算力瓶颈,其核心是将 计算和存储融合,降低“内存墙”问题,实现计算能效的数量级提升。谷歌基于边缘设备运行神经网络模型,发现1) 62.7%的系统能耗是花费在数据移动上;2)数据移动主要来自内存中的简单函数,如乘累加等,因此解决内存墙,核心是 要将计算函数搬移到数据存储的地方,而非把数据搬移到处理器中进行计算。
存内计算难度大,近存计算和存内处理是重要方向
传统存算分离架构带来存储墙问题。 上世纪40年代开始计算机使用冯诺伊曼架构——存算分离,即处理器和存储器相互独立,两者通过总线连接。1)存算分离,数 据存算间传输造成延迟。处理器从外部存储中调取数据,计算完成后再传输到内存中,一来一回都会造成延迟。2)数据在多级 存储间传输。为了提升速度,冯诺依曼架构对存储进行分级,越往外的存储介质密度越大、速度越慢,越往内的存储密度越小, 速度越快,因此数据需要在多级存储之间搬运,能耗大。通常第一级存储是速度最快、容量低,主要是SRAM片上缓存,第二 级是传统DDR。 3)存储制程推进慢于逻辑。目前DRAM制程最先进仍在10-15nm左右,而逻辑制程已进入3nm,主要是因存储 器制程缩小难度更大。 随着近几年云计算和AI应用发展,面对计算中心的数据洪流,存算分离架构下数据搬运慢、搬运能耗大等问题成为了计算的关 键瓶颈,“存储墙”问题更加显著。
四、海外大厂持续迭代推动端侧AI布局,国产厂商加速布局
NPU发展历程:算力攀升,场景突破
Intel的NPU发展起步相对高通较晚,与其在传统CPU上的路径依赖以及早期对移动市场的相对忽视(前CEO 保罗・欧德宁 拒绝了将英特尔处理器应用于第一代苹果 iPhone 的机会)有一定关系。 Intel近两年NPU的迭代速度较快。2023年推出的NPU 3 是Intel第一代真正意义上的NPU产品,2024年的NPU 4便达到 48TOPS的峰值AI性能,是前代的约4倍。考虑功耗,NPU 4在同等功耗下的表现是前代的2倍。
三星NPU迭代:算法优化+更多MAC集成
以三星为例,第1代&第2代: 性能提升关键在于“权重剪枝”,NPU中典型权重张量的稀疏度可超 50%,NPU 会利用这种权重稀疏性进行零跳跃操作(预 先识别哪些权重为0,跳过其对应输入特征图(Feature Map)的计算过程),提高计算效率。 MAC结构:为基于累加器的点积形式,在输入通道方向4 路并行,但每个输入通道单独计算,最终结果合并前各自独立,缺 乏加法树,无归约操作,需大量寄存器存储部分和(PSUM)值。 数据处理和传输:整体 FM 可在空间方向预先分区为基本数据交易单元 Cell,随着输入和输出通道方向并行度的增加,用于 选取和组合 FM 单元的多路复用器开销会不断增大;并且在网络中存在许多宽度和高度较小的层时,利用大规模空间并行性 可能会导致计算利用率低下。
Intel NPU迭代:增加计算引擎数和内存带宽
Intel NPU 4 ,较前代NPU3,提升神经计算引擎数至12个,内存带宽增至2倍,同时可访问计算模块上的8MB共享端缓存, 共同提升了效率。 每个神经计算引擎中,都嵌入了推理链路——包括 MAC 阵列和专用 DSP,专为众多并行操作而构建,NPU4上的SHAVE DSP 经过优化,单个矢量计算能力是上一代的四倍,可以处理更复杂的神经网络。
报告节选:



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 正泰安能:向设计要效益:AI自动化设计的实践与回报.pdf
- 艺恩报告:智驾未来:AI重塑汽车消费新纪元.pdf
- 清鹏算电:AI与电力市场应用探索——清鹏能源大模型智能体实践与展望.pdf
- 启信慧眼:全球布局洞见先行:构建AI时代的供应链韧性-2026供应链风控白皮书.pdf
- 计算机:通过AI原生,提升驾驶敏捷性和商业价值统一采购平台(英文版).pdf
- 对话式分析如何成为企业智能增长的加速器.pdf
- 百度研究报告:解锁AI加速器,释放资产负债表实力;上调目标价,买入(摘要).pdf
- 2024年中国辐照加速器行业市场研究报告
- 确定性运维白皮书:稳定可靠篇,让运维成为智能世界变革的加速器.pdf
- 组织竞争力背后的无名英雄中国洞察:数据安全成为业务加速器?.pdf
- 行业主题轮动研究报告:基于卷积神经网络的指数轮动策略.pdf
- 鸿腾精密:智能“神经网络”平台厂商.pdf
- 银河金工可转债定价模型系列研究:条件特征神经网络对转债蒙特卡洛定价模型的改进.pdf
- AI投研应用系列专题报告:基于NARX动态神经网络的指数择时策略.pdf
- 光通信行业研究报告:AI算力中心的神经网络.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 人工智能AI产业链全景图.pdf
- 2 铀行业专题报告:AI时代的关键资源品,全球核电复兴,铀矿景气反转.pdf
- 3 元宇宙177页深度报告:人类的数字化生存,进入雏形探索期.pdf
- 4 智慧城市专题研究:AIoT时代的智慧城市跃迁.pdf
- 5 2024年AI医学影像行业发展现状与未来趋势蓝皮书.pdf
- 6 中国AI智慧操场行业研究报告.pdf
- 7 人工智能行业专题报告:从CHAT~GPT到生成式AI(Generative AI)-人工智能新范式,重新定义生产力.pdf
- 8 5G+AI的杀手级应用:VR+AR深度研究报告.pdf
- 9 埃森哲人工智能应用之道(92页).pdf
- 10 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 1 中国AI智慧操场行业研究报告.pdf
- 2 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 3 金域医学研究报告:数据资产价值重估,AI技术驱动创新应用场景拓展.pdf
- 4 MIM(金属粉末注射成型)行业专题报告:MIM在机器人、AI、消费电子领域应用前景广阔:破界生长,智领未来.pdf
- 5 医疗AI专题报告:多组学篇,AI技术驱动精准诊断实现重要突破.pdf
- 6 AI的宏观悖论与社会主义全球化.pdf
- 7 洞隐科技2025中国物流与供应链领域AI应用研究报告.pdf
- 8 电力设备与新能源行业深度报告:AI动力打造固态电池发展新引擎.pdf
- 9 2025年金融服务业中国AI现状与趋势.pdf
- 10 人工智能行业分析:AI新纪元,砥砺开疆·智火燎原.pdf
- 1 讯飞医疗科技公司研究报告:AI医疗先行者,贯通式布局医疗信息化.pdf
- 2 医药生物行业医疗器械2026年度策略:把握出海陡峭曲线,卡位AI医疗商业化落地.pdf
- 3 艾瑞咨询:2025年中国企业级AI应用行业研究报告.pdf
- 4 新经济中工作的四大未来:2030年的AI与人才(英译中).pdf
- 5 2026年半导体设备行业策略报告:AI驱动新成长,自主可控大时代.pdf
- 6 青矩技术公司研究报告:全过程工程咨询服务领军者,积极布局AI推行数智化咨询新模式.pdf
- 7 AI医疗行业专题报告:AI重构医疗,从场景落地到变现讨论.pdf
- 8 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 9 2026年AI行业应用深度展望:AI应用重塑流量格局,字节阿里腾讯C端布局加快.pdf
- 10 讯飞医疗科技公司研究报告:AI医疗龙头,GBC全场景贯通&中试基地卡位明确,规模化落地有望加速.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 1 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 2 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 3 2026年AI“创造性破坏”重构产业生态——多行业联合人工智能3月报
- 4 2026年AI“创造性破坏”下的产业重构
- 5 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 6 2026年专用设备行业:AI算力驱动散热架构升级,液冷一次侧设备迎来价值重估——AIDC液冷深度报告
- 7 2026年腾讯控股重新探讨腾讯的AI争议:嵌入式工作流为何胜过单品表象
- 8 2026年汇量科技公司研究报告:出海程序化广告龙头构筑AI飞轮
- 9 2026年轻松健康公司研究报告:深耕AI医疗的数字健康生态构建者,数据与技术双轮驱动
- 10 2026年房地产行业深度报告:地产+AI工具系列报告之二,基于OpenClaw的房地产股票投研生产力提升实践
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
