2025年电子行业专题报告：端侧AI，模型创新快速迭代，看好苹果引领AI硬件起飞

来源：东吴证券
发布时间：2025/03/03
浏览次数：393
举报

相关深度报告REPORTS

电子行业专题报告：端侧AI，模型创新快速迭代，看好苹果引领AI硬件起飞.pdf

电子行业专题报告：端侧AI，模型创新快速迭代，看好苹果引领AI硬件起飞。端侧AI革新人机交互，模型快速升级，巨头引领行业发展：AI自主化能力沿着“以指令为中心“到“以意图为中心”持续提升。LLM从各个层面改造终端，其中Agent对开放式问题必不可少，背后是大模型带来的理解复杂输入、进行规划推理/合理使用工具的能力。据头豹，端侧AI市场规模2023-2028年预计CAGR高达58%，2028年超过1.9万亿元。从具体小模型性能表现上看，参数量对模型性能影响巨大，但受限于硬件，小模型的技术创新更加积极以提升有限参数量下的性能表现，其中量化/剪枝/蒸馏...

1. AI 技术在端侧逐渐深化，引领全新人机协作方式

1.1. AI 自主化能力逐渐提高，与系统融合程度提升

从指令到意图驱动，AI 自动化能力持续提升。根据自动化程度，可将个人智能助理（intelligent personal assistants,IPAs）分为 5 个级别。AI 自主化能力沿着“以指令为中心“到”以意图为中心“持续提升，用户只需要表达出需求，实现需求的过程将交由系统完成。从 L1- L3 级的智能体都在用户指令的被动驱动下工作，而 L4 级以上智能体能够理解用户的历史数据，感知当前状况，并在适当的时候主动提供个性化服务。大模型和智能体驱动下一代终端操作系统。当前的操作系统依然是建立在静态规则和预定义的逻辑流程上，未来真正理解用、为用户量身定制的原生智能 OS 将进一步拓展终端 OS 的内涵。从 AI 技术在终端产品的落地上，一般经历：单点特定的 AI 增强实现应用层集成 AI→OS 智能化改造实现系统层融合 AI（原子化控件化的 AI 能力） →以 AI 为中心的全新 OS 并且系统级 AI Agent 出现。

1.2. 基于用户场景的端云混合架构

当前端侧模型性能和云端大模型依然有较大差距，因此基于用户场景的端云协同 AI 将构筑全局化智能。根据具体的场景（用户意图、网络情况、敏感隐私）以及所需的性能选择端侧或者云端执行，端侧适合无网、隐私要求高、响应要求高的场景。

苹果通过小型本地模型+私有云模型+第三方大模型三层架构实现系统级 AI。苹果在设备端部署一个参数量为 30 亿的语言模型和一个图像模型。同时具备一个编排层（Orchestration）协调多个模型，根据用户请求调用对应能力的模型。无论是端侧还是私有云模型都基于 Apple 芯片底座以提供计算和安全支持，应用层都以 Siri、Writing Tools 等形式以实现用户体验的一致性。同时在外部第三方大模型上合作 ChatGPT 以响应更加开放和复杂的需求。

1.3. LLM 从各个层面改造终端

大模型在各个层面改造终端交互体验，预计分为三种形式。最开始增强型 LLM 架构，可以增加单点的功能体验，比如在翻译/图片处理/语音转换中使用 AI；阶段二主要以工作流形式，比如生成营销文案并翻译等；最后阶段是针对开放问题的 Agent 形态。这三种形态出现形式有先后，但是最终预计并存以针对不同特性的场景。最基础的构建块（增强型 LLM）——工作流——自主的 Agent，复杂性持续提升。同时虽然非 Agent 在自动化水平上提升有限，但是由于调用的是 LLM，在智能化水平、可处理任务等方面也有巨大的提升。

对于开放式问题 Agent 必不可少，要具备理解复杂的输入、进行推理和规划、可靠地使用工具的能力。Agent 可用于开放式问题，这些问题难以预测所需的步骤，无法硬编码固定路径。Agent 需要独立规划和操作，并可能返回用户那里获取更多信息或判断。在执行工作中， Agent 在每一步从环境中获取“真实情况”，以评估进展，在遇到响应节点或者障碍的时候暂停以获取人类反馈。人类只需要提出需求+监管成果，AI 将进行任务的分解、选择工具、监控进度。

1.4. 消费级终端带动端侧 AI 高速发展

AI 可以改造多种终端，端侧 AI 市场规模 2023-2028 年预计 CAGR 高达 58%， 2028 年超过 1.9 万亿。2023 年全球存量消费终端设备达 228 亿台，其中智能手机占 29.8%、智能家居设备（不含 TV）占 26.3%，PC 和 PAD 占 17.6%。2023 年以前端侧 AI 技术已经在智能安防和车载设备两个重要领域应用，快速发展但规模不大。从 2023 年开始，随着亿级出货量的 PC 和手机开始 AI 化，两者庞大的市场将在未来支撑端侧 AI 行业迅速发展，2023 年中国端侧 AI 市场规模不到 2000 亿，预计 2028 年超过 1.9 万亿，2023-2028 年 CAGR 为 58%。

2. 端侧模型逐步迭代，巨头引领行业发展

2.1. 基础的小模型迭代加速，技术创新大于参数量提升

通过技术进步，相同规模模型性能持续提升。Gemma2 是谷歌 24 年 6 月发布的模型，通过架构和技术的改进提升了在规模相当的情况下的性能。如 Gemma2 和 Gemma1 分别为 2T 和 3T tokens 上训练，但是各类测试机的表现都大幅提升，包括评估语言理解能力的 MMLU 提升约 10pct，评估数学能力的 GSM8K 表现提升 9pct 等。同时横向比较看，Gemma-2 2B 到 Gemma-2 9B 的表现提升远高于 9B 到 27B 的提升。若选用 MMLU 数据集进行端侧模型的比较，首先我们认为随着新技术的出现模型性能会快速提升，如 Gemma1 和 Gemma2。其次整体的模型性能和模型参数呈现明显的正向关系。另外数据集的差异、蒸馏技术的使用等会带来相同模型巨大的性能差异，如均为苹果发布的 3B 模型，开源的 OpenELM-3B 性能远低于 AFM-on-device。时间相近的各家发布的相同参数的模型性能基本处在同一档次。

2.2. 端侧模型需要进一步提升参数量以提高性能

端侧模型需要提高参数量以提高各类任务能力。Gemini Nano 是谷歌 Gemini 系列中专用于设备端部署的小模型，其中 Nano 1 和 2 的参数量分别为 1.8B 和 3.25B，针对低/高内存设备。从对应的测试集看，1）参数对模型表现影响巨大，1.8B 参数的 Nano 1 全面弱于 Nano 2。2）缩减参数后模型在回答真实性方面依然保持相当的准确率，但是在推理/编码/数学方面准确率较低，相比 Gemini Pro 准确率大幅下降。

2.3. 量化/剪枝/蒸馏技术压缩模型以降低硬件要求

量化/剪枝/蒸馏是主要的模型压缩方式。为在有限的硬件资源上部署更多参数的模型（或在模型保持基本性能的情况下降低对硬件的需求），需要对模型进行压缩。其中量化/剪枝/蒸馏是主要方法。量化：用低精度数值表示参数，可以减少模型的内存占用和计算开销，比如从 32bits 转化为 8bits，内存开销为原来的 1/4，计算成本仅为原来的 1/16。剪枝：删除不必要的神经元/权重参数/节点等。如下图所示，修剪前需求执行 32 次乘法累加和 32 个参数（权重）存储在内存中，修剪后只需要 24 次乘法累加和 24 个参数，计算复杂性和内存都降低了 25%。蒸馏：将大模型作为教师模型，用其输出训练一个性能接近但更轻量化的学生模型。如 Gemma 的 2B 和 9B 模型由 27B 的模型蒸馏而来，苹果 3B 的 AFM-on-device 也是由剪枝后的 6.4B 模型蒸馏而来。

参数量-性能的取舍带来更多样的创新方向以提升效率。多重制约带来各类方法百花齐放，如高质量的数据集，高效的训练方式、先进的压缩方法等创新方向。如苹果使用混合精度量化实现 3.7bits 的量化水平后，针对量化后的质量损失，苹果加入准确率恢复适配器实现了近乎无损的量化压缩。

2.4. Agent 架构差异带来数据困境，Transformer 是转折点

基础模型本身：端侧是训练环节采用新的 Agent Transformer 架构，需要引入新的输入类型，成为 VLA 模型。视觉语言模型（VLMs）和大语言模型（LLMs）在任务规划（做什么）方面展现出了颇具潜力的能力。但是 Agent 的每项任务都需要底层控制策略（怎么做），才能在与环境的交互中取得成功，因此需要引入第三种通用数据类型——Agent tokens。即 Agent 模型是一个 VLA 模型（Vision-Language-Action Model，即视觉-语言-动作模型），是一个融合了视觉、语言和动作的多模态大模型范式。

Transformer 带来状态-动作交互策略学习机遇，有望大幅提升泛化能力。由于互联网的数据以静态数据组成，无法捕捉人类决策和环境交互作用，因此 Agent tokens 非常不足。动作数据收集成本过高，传统的训练模式下存在泛化能力弱，自我容错率低，成本过高的问题。但是由于大模型具备模糊匹配能力，在预训练过程中，通过模糊匹配而非精准映射，学习策略进而提高泛化能力。同时我们更看好消费电子 GUI 成为最先落地的产品形态。基础模型之外：Agent 还增加了个性化和内存操作要求，需要基础大模型基础上，个人 LLM 大模型还需要具备任务执行、情境感知和记忆能力，考验终端厂商要求极高。个人 LLM 大模型需要具备：任务执行（将用户的指令或主动感知到的任务转化为针对个人资源的操作行动）、情境感知（感知用户及环境的当前状态，为任务执行提供全面的信息）、记忆（记录用户数据，使智能体能够回顾过往事件、总结知识并实现自我进化）。

推理能力之外，端侧模型对个性化和内存操作要求较高，需要其它额外的优化。情境感知和记忆能力由更基础的流程制程，主要包括智能体的推理、个性化和记忆检索。比如任务执行过程中需要任务分解/规划，背后是推理能力；需要切换任务，需要依靠个性化来调整任务的权重；同时执行过程中需要检索历史数据，背后是内存操作能力。

3. 硬件升级满足高性能需求，适配核心在内存

3.1. 内存是端侧硬件 AI 推理能力的短板

内存和由内存操作带来的能耗是端侧设备 AI 能力最短板。模型的优化和压缩的最终目的是为了提升端侧 AI 推理能力，硬件是端侧模型第二个必要的组成部分，硬件也将补齐短板。内存及其操作带来的能耗是当前最短板。Meta 指出，由于 SRAM 缓存通常在 20MB，仅能容纳一个 Transformer 块，而 Flash 容量足够但速度较慢，DRAM 是要和系统和其它应用共享，留给模型的 DRAM 空间更小，单个应用程序不应超过 DRAM 的 10%。苹果论文《LLM in a flash》指出，在 LLM 推理阶段，仅将 7B 参数，半精度的 LLM 的参数加载入 DRAM 所需空间就超过 14GB。微软的 3.8B 参数的 Phi-3- mini 模型在 4 bits 量化水平下需要占用 1.8GBDRAM。同时根据论文《EIE》，在相同的精度下，DRAM 耗能比 SRAM 耗能高两个数量级（640：5），比计算耗能高更多。内存读取是主要的耗能项。根据每 10 亿参数生成 1token 需要耗能 0.1J，一个满电的 iPhone 大约 50KJ，以 10Token/s 的速度仅支持 7B 的模型运行不到 2 小时。同时能耗增加带来散热问题突出。

对比各家 SoC，苹果在内存/电池/散热上提升空间巨大。芯片制程上看，苹果一般会优先拿到最先进的制程，但是苹果的 DRAM 容量较安卓相差较大，目前最新手机仅为 8GB，相比安卓旗舰最高 24GB 差异明显。苹果的设备功耗极限潜力很高但受限于散热无法全部发挥。同时苹果和安卓手机的电池续航相差极大，苹果增加电池容量的空间巨大，作为对比，iPhone 16 Pro Max 电池容量为 4685mAh，小米 15 Pro 为 6100mAh。

3.2. 安卓和 iOS 内存利用效率差异大

内存作为端侧 AI 提升速度、规模和效率的短板，预计成为硬件核心变革方向。从当前 iOS 和安卓的内存占用来看，普遍 iOS 内存利用效率更高尤其是在应用程序上。根据 Android authority，相同的 App 在 iOS 的内存占用远低于安卓。主要原因是安卓为消除硬件差异性代码运行在虚拟机中，需要编译为中间语言，而 iOS 则是原生编写因此内存占用较小，而游戏基本用游戏引擎均为原生编写差异较小。同时在国内由于安卓监管较少，各 App 为保活留存后台，集成功能等也增加了 App 的内存占用。因此我们认为安卓需要在 OS 层提供统一的 AI 基础模型，而 iOS 在模型压缩之外则需要提高硬件内存以克服单个功能占用大量内存的硬件瓶颈。

3.3. 苹果硬件积极应变，创新方案集中内存方向

除了增加内存容量之外，苹果在内存结构、耗能、传输速度等方面创新密集。

苹果合作三星研发独立封装形式。韩媒 The Elec 报道，三星应苹果要求，开始研究新的 LPDDR DRAM 封装方式——独立封装，改变 2010 年起，iPhone 沿用至今的堆叠式封装（POP）方案——内存直接叠在 SoC 上通过 Pitch 连接以最大限度减少设备体积。但是 PoP 技术由于芯片过于靠近，端侧 AI 负载要求下带宽和散热问题严重。通过分开封装 DRAM 和 SoC，可以增加 I/O 引脚数量，提高数据传输速率和并行数据通道数量，并改善散热性能，显著提高内存带宽并增强 iPhone 的 AI 能力。同时三星还尝试在 iPhone DRAM 中应用 LPDDR6-PIM（内存内置存储器）技术，该技术的数据传输速度和带宽是 LPDDR5X 的两到三倍，专为设备端 AI 设计。

全新的 WMCM 封装方式进一步提高芯片组合的灵活性和集成度。预计 2026 年苹果芯片先进封装方式将从现在的 InFO（集成扇出型）改为 WMCM 的封装方式（Wafer-Level Chip-Scale Packaging）。相比于现在的单芯片封装形式，WMCM 可将多芯片集成在同一封装中，可以开发更复杂的芯片，将 CPI、GPU、DRAM、NPU 等灵活的排列集成在一个封装中。WMCM 在信号传输方面表现出色，能减少信号延迟和干扰，对需要高速数据处理的设备尤为重要。

4. 多模态 UI 交互界面革命带来 Agent 的历史机遇

4.1. Transformer 架构带来 UI 交互的机遇

AI 智能助理的任务执行过程先后分为两个环节，包括规划和定位。其中规划包括使用哪些工具、哪些步骤进行执行等。定位可理解为执行过程中具体的工具（Tools）、技能或者坐标进行对外部环境的操作。

根据交互的模式，任务执行方法可分为基于 API 和基于用户界面（UI）的方法， GUI 有望在 Transformer 加持下成为主流。API 方式在运行时需要利用模型和内置的示例等方式来选择合适的 API 进行交互。但是 API 交互方式依赖公开可用的 API，存在应用程序支持不够全面、同时存在人类可以轻松执行但是 API 难以实现的任务、拓展性和自动化能力较弱等不足。UI 界面方式在 Transformer 架构下较好克服了任务和 UI 元素之间的隐含关系，大幅提升了 GUI Agent 的可行性。

GUI 交互可进一步分为基于文本的 GUI 交互和多模态的 GUI 交互，当前多模态 GUI 交互方式中 Grounding 难度比 Planning 更大。视觉定位阶段（Grounding）需要将规划好的指令精准映射到实际界面元素上，确保操作的准确执行。其中 Grounding （精准定位）由于设备兼容性/指令多样性/场景复杂性等原因，当前难度甚至比规划决策阶段更大，元素识别错误也是当前 LMMs GUI 模型的主要错误来源。多模态 GUI 交互方式数据不足、存在屏幕录制要求高以及当前 LMMs 模型推理能力有限的困扰。

4.2. 苹果和谷歌均发力 UI 交互模型

苹果在 24 年 4 月推出 Ferret-UI 模型，Ferret-UI 通过一个视觉编码器对图像进行编码，苹果 Ferret-UI 加入任意分辨率（Anyres）技术切割放大子图像来解决 UI 交互中的小型对象识别问题，同时采用混合区域表示的方法进一步提高图像的特征提取能力，将图像特征和文本指令联合编码后进行推理，并精准根据任务要求执行。从测试看，模型针对定位任务/识别任务和高级任务表现均较为优秀。

Screen AI 是谷歌 24 年 2 月推出的可读屏 AI 视觉语言模型，专门设计用于理解和处理用户界面（UI）和信息图标，能够理解和生成与屏幕元素相关的文本，如屏幕信息理解、问题回答、UI 导航指令、内容摘要等。从架构上，ScreenAI 使用视觉编码器和语言编码器组成的多模态编码器。视觉编码器基于 Vision Transformer（ViT）架构，将输入的屏幕截图作为一系列图像嵌入，语言编码器则处理截图相关的文本信息，如 UI 元素标签和描述等。编码器的输出被传递给一个解码器 T5,负责生成文本输出，能够根据输入的图像和文本嵌入生成自然语言响应。同时与苹果类似，谷歌采用更灵活的屏幕分割策略以适用于不同的手机和电脑屏幕。

模型参数提升对性能影响较大，尤其是在复杂任务中，5B 模型对性能提升尚未饱和。谷歌发布了三个 670M/2B 和 5B 三个大小的模型，参数差异主要在图像和文本编解码器的大小，不同的编码器支持不同的输入，如正方形下 670M 模型最大输入分辨率为 720×720，5B 模型则支持 812×812 的最大输入分辨率。从最后的模型表现中，所有的任务中增加模型规模都会提升性能，并且在最大的 5B 模型时性能提升尚未饱和。同时对于复杂任务，2B 和 5B 模型之间的性能提升远大于 670M 模型到 2B 模型之间的提升。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）