2024年苹果公司研究：Apple Intelligence驱动苹果新一轮创新成长周期

来源：西南证券
发布时间：2024/07/10
浏览次数：1195
举报

相关深度报告REPORTS

苹果公司研究：Apple Intelligence驱动苹果新一轮创新成长周期.pdf

苹果公司研究：AppleIntelligence驱动苹果新一轮创新成长周期。1）基于系统级AI、跨应用的信息整合能力、端云结合和私有云服务的差异化部署方式等优势，AppleIntelligence将为苹果带来新一轮创新和成长周期；2）AppleIntelligence或带动苹果硬件产品的换机需求，预计2025-2026财年iPhone销售复合增长10%、Mac销售复合增长7.5%；3）AI融合或提升软件服务业务价值，未来三年复合增长10%。AppleIntelligence具备三大特色。1）系统级AI。AppleIntelligence融入到苹果的操作系统层面，可在应用中直接调用AI能力，从而...

1 苹果 WWDC 2024 开幕，Apple Intelligence 如期而至

苹果在今年的 WWDC 2024 上亮出了市场期待已久的重磅产品—Apple Intelligence（苹果智能）。Apple Intelligence 包括文字处理、图片处理、AI 助手、隐私保护、ChatGPT 等多项功能。其中，隐私保护是苹果在本次发布会上强调最多的点。我们认为，本次 WWDC 发布会展现出来的 Apple Intelligence 主要有以下亮点：

系统级 AI。Apple Intelligence 融入到苹果的操作系统层面，可在应用中直接调用 AI 能力，用户无需在单独的 AI 助手工具与第三方应用之间来回切换，从而提升效率。

跨应用的信息整合能力。在使用过程中，通过为照片、日历、行程和文件等内容创建语义索引，从各种应用中整理和提取信息，找出相关个人数据并提供给 AI 模型， Apple Intelligence 能发现并理解跨应用之间的信息（早期以原生应用为主，后期预计部分第三方亦会支持调用），具备跨平台信息处理能力。而这得益于苹果在操作系统+模型+芯片+终端的一体化优势。

Apple Intelligence 基于内置的大模型，采用端侧为主、云端为辅的模式，以及私有云部署方式。云端服务器采用苹果自研芯片，用 Swift 语言编程，服务器代码接受第三方专家审查。苹果在发布会上承诺，用户上传的数据不会在服务器上存储。

苹果对 Apple Intelligence 的设计思路即是：内置在 iPhone、iPad和 Mac中，帮助用户轻松写作、表达自我和高效完成任务；利用用户的个人背景，同时为人工智能中的隐私保护设定了全新的标准。而系统级 AI、跨应用/平台的信息整合/交互能力、端云结合和私有云服务的差异化部署方式等三大特色，正是 Apple Intelligence 设计思路的体现。

2 Apple Intelligence 的模型架构

Apple Intelligence 核心的基座模型，包含了本地大语言模型、本地图像生成模型，以及 Server 端的模型。Apple Intelligence 的模型架构形成了三个层次：第一层是苹果自研的端侧模型；第二层是自研的云端模型；第三层是外接的 GPT 模型，GPT是参数量最大、智能程度最高的模型。 Apple Intelligence 由多个生成式模型组成，构建到 Apple Intelligence 中的基础模型已经针对用户体验进行了微调，例如写作和润色文本、优先排序和总结通知、为与家人和朋友的对话创建有趣的图像、以及在应用程序中采取行动以简化跨应用程序的交互等。 Apple Intelligence 在接收到任务后会先判断任务的难度。当任务涉及到隐私时，会优先执行本地模型，如果本地模型无法满足要求，会交由 Server model 去完成推理，然后再返回结果。GPT作为外部模型，主要负责处理更加复杂和专业的任务。

2.1 Apple Intelligence 模型的建模流程和整体性能评估

Apple Intelligence 基础模型的建模过程包含了：数据/指令接收，预处理，预训练，后训练，优化，微调等环节。

2.1.1 预训练

Apple Intelligence 的基础模型是在苹果的 AXLearn 框架上训练。AXLearn 框架是苹果在 2023 年发布的一个开源项目，它建立在 JAX 和 XLA 之上，允许在各种训练硬件和云平台上，包括云以及本地 GPU 上，以高效率和可扩展性训练模型。苹果使用了数据并行、张量并行、序列并行和完全分片数据并行（FSDP）的组合，沿着数据、模型和序列长度等多个维度扩展训练。据苹果官方说法，苹果的训练数据来自于授权的公开数据。苹果在训练中不会使用用户的个人数据，苹果应用过滤器来删除公开的个人身份信息，比如社会安全号码和信用卡号。苹果还会过滤掉不健康内容和其他低质量内容，以防止其被包含在训练语料库中。除了过滤，苹果还执行数据提取、去重和应用基于模型的分类器，以识别高质量的文档。

2.1.2 后训练

苹果在训练管道中采用了混合数据策略，结合了人工注释和合成数据，并进行了彻底的数据策划和过滤程序。苹果在后训练中开发了两种新算法：1）拒绝采样微调算法，对数据进行过滤；2）带有镜像下降策略优化和留一法优势估计器的人类反馈强化学习算法（RLHF）。这两种算法在提高模型遵循指令的质量方面取得了显著改进。

2.1.3 优化

苹果使用了一系列创新技术在设备端和私有云上对模型进行了优化，以提高速度和效率。苹果为首次词元（Token）和扩展词元（Token）推理性能应用了做了大量的优化。苹果在设备端和服务器端均引入了分组查询注意力机制。通过使用共享的输入和输出词汇嵌入表来减少内存需求和推理成本。这些共享嵌入张量在映射时没有重复。设备端模型使用 49K 的词汇量，而服务器端模型使用 100K 的词汇量，其中包括额外的语言和技术词元。对于设备端推理，苹果开发了一个全新的框架，使用 LoRA 适配器以实现与未压缩模型相同的准确性。此外，苹果使用交互式模型延迟和功耗分析工具 Talaria，以更好地指导每个操作的比特率选择。苹果利用激活量化和嵌入量化，开发了一种在神经引擎单元（NPU）上实现高效的键值（KV）缓存更新。通过这套优化，苹果在 iPhone 15 Pro 上能够实现每个提示词元的首个词元延迟约为 0.6 毫秒，且每秒钟可生成 30 个词元。

2.1.4 模型微调

Apple Intelligence 基础模型针对用户的日常工作进行了微调，且可以动态地针对手头上的任务进行专业化处理。Apple Intelligence 使用适配器，即可插入预训练模型各个层的小神经网络模块，来针对特定任务微调模型。通过仅微调适配器层，原始预训练模型的参数保持不变，从而保留了基础模型的一般知识，同时定制适配器层以支持特定任务的处理。适配器是覆盖在基础模型上的小型模型权重集合。它们可以动态加载和交换，使基础模型能够针对不同的任务进行专业化处理。Apple Intelligence 包括一组广泛的适配器，每个适配器都针对特定功能进行了微调。这是一种有效扩展 Apple Intelligence 基础模型能力的方式。

2.1.5 模型整体性能评估

在对模型进行基准测试时，苹果专注于与产品用户体验高度相关的评估。苹果在 email 和通知层面对基础模型和特定功能适配器进行了性能评估。苹果使用了为每种用例采样的 750 个响应，这些评估数据集强调了产品功能在 AI 生成中可能面临的多样化输入，包括不同内容类型和长度的单一和堆叠文档的分层混合。经评估发现，带有适配器的模型相比可比模型能生成更好的摘要。

除了评估由基础模型和适配器提供的功能特定性能外，苹果还评估了设备端和云端模型的一般能力。苹果使用一套全面的现实世界提示的评估集来测试一般模型能力。这些提示在不同的难度级别上进行了多样化，并涵盖了主要类别，比如头脑风暴、分类、封闭式问题回答、编码、提取、数学推理、开放式问题回答、改写、安全性、摘要和写作等。通过与开源模型（ Phi-3、 Gemma、 Mistral 、 DBRX）和可比大小的商业模型（GPT-3.5-Turbo、GPT-4-Turbo）进行比较，苹果的模型在大多数可比竞争模型中更受青睐。在这个基准测试中，拥有约 30 亿参数的苹果设备端模型表现优于包括 Phi-3-mini、 Mistral-7B 和 Gemma-7B 在内的更大参数模型。苹果的云端模型与 DBRX-Instruct、 Mixtral-8x22B 和 GPT-3.5-Turbo 相比具有高度效率，同时表现良好。

苹果使用一套多样化的对抗性提示来测试模型在有害内容、敏感话题和事实性方面的性能。通过评估每个模型在这些评估集上的违规率，数值越低越好。设备端和云端模型在面对对抗性提示时表现都很稳健，实现了低于上述开源模型和商业模型的违规率。

通过安全基准测试，Apple Intelligence 基础模型相比竞争模型更安全。然而考虑到大语言模型的泛化能力，安全基准测试有一定的局限性。

为了进一步评估模型能力，苹果使用 Instruction-Following Eval (IFEval) 基准测试来比较苹果模型与可比模型的指令遵循能力。通过测试结果可见，苹果设备端和云端模型相比可比开源模型和商业模型能更好地遵循详细指令的要求。

苹果在内部摘要和撰写基准测试中评估了模型的写作能力，包括各种写作指令。通过测试结果可见，相比可比开源模型和商业模型，苹果设备端和云端模型在摘要和写作能力表现方面更好。

在 WWDC 2024 上发布的苹果基础模型和适配器构成了 Apple Intelligence 的基础。 Apple Intelligence 是一个全新的个人智能系统，深度集成到 iPhone、iPad 和 Mac 中，通过多项基准测试可见，其在语言、图像、动作和个人上下文方面提供了强大的能力。在这个过程中，苹果的多个生成式模型发挥了极大的作用。

2.2 MM1 模型

2024 年 3 月，苹果正式公布自家的多模态大模型 MM1。MM1 由密集模型和混合专家（MoE）变体组成，具有 300 亿、70 亿、30 亿参数等多个版本。MM1 不仅在预训练指标中实现最优性能 SOTA，在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。得益于大规模多模态预训练，MM1 模型在上下文预测、多图像和思维链推理等方面表现不错。MM1 模型在指令调优后展现出强大的少样本学习能力。在几乎所有基准测试中，苹果的 MoE 模型比密集模型取得更好的性能，显示 MoE 进一步扩展的巨大潜力。

由于其大规模多模态预训练，MM1 可进行上下文预测。这使得 MM1 能够：a）计数对象并遵循自定义格式；b）引用图像的部分并执行 OCR；c）展示关于日常物品的常识和词汇知识；d）执行基本的数学函数。 MM1 模型可以遵循指令进行跨图像推理。示例和图像来自 VILA；当使用思维链提示时， VILA 能够正确回答。通过与市面主流的 AI 大模型比较，MM1 模型在领域特定微调（SFT）之后有较为优异的表现： 1）MM1-3B-Chat 和 MM1-7B-Chat 的表现超过了所有列出的同等规模的模型。 MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、TextVQA、ScienceQA 以及更近期的基准测试（MMMU 和 MathVista）上显示出特别强的性能。 2）探索了两个混合专家模型（MoE）：（i）具有 64 个专家的 3B-MoE；（ii）具有 32 个专家的 7B-MoE。苹果的 MoE 模型在几乎所有基准测试上都比对应的密集型模型表现更好。这表明 MoE 在进一步扩展方面具有巨大的潜力。 3）对于 30B 模型规模，MM1-30B-Chat 在 TextVQA、SEED 和 MMMU 上超过 Emu2-Chat-37B 和 CogVLM-30B。与同期的 LLaVA-NeXT相比，也取得了有竞争力的性能。

2.3 OpenELM 模型

4 月 26 日，苹果宣布了更大的端侧 AI 推进，推出全新的开源大语言模型 OpenELM。 OpenELM 包含 2.7 亿、4.5 亿、11 亿和 30 亿个参数的四种版本，定位于超小规模模型，可在手机和笔记本电脑等终端设备上运行文本生成任务。同时，苹果开源了 OpenELM 模型权重和推理代码、数据集、训练日志、神经网络库 CoreNet。 OpenELM 使用了“分层缩放”策略，来有效分配 Transformer 模型每一层参数，从而提升准确率。在约 10 亿参数规模下，OpenELM 与 OLMo 相比，准确率提高了 2.36%，同时需要的预训练 token 数量减少了 50%。 OpenELM 的基准测试（数据类型 BFloat16）在工作站（配备英特尔 i9-13900KF CPU、 RTX 4090 GPU，24GB DDR5 内存），以及 M2 Max MacBook Pro（64GB 内存）运行。

2.4 Ferret-UI 模型

4 月 8 日，苹果展示了多模态模型 Ferret-UI。Ferret-UI 模型可以理解手机屏幕上的应用程序内容，专为增强对移动端 UI 屏幕的理解而定制，其配备了引用（referring）、定位（grounding）和推理（reasoning）功能。Ferret-UI 具备了解决现有大部分通用多模态大模型所缺乏的理解用户界面（UI）屏幕并与其有效交互的能力。 Ferret-UI 可执行从基本到复杂任务等 11 种任务。它能在移动 UI 屏幕上使用灵活的输入格式（点、框、涂鸦）执行指代任务（例如控件分类、图标识别、OCR）和定位任务（例如查找控件、查找图标、查找文本、控件列表）。这些基本任务为模型提供了丰富的视觉和空间知识，使其能在粗略和精细级别（例如各种图标或文本元素之间）区分 UI 类型。这些基础知识对于执行更高级的任务至关重要。具体来说，Ferret-UI 不仅能在详细描述和感知对话中讨论视觉元素，还可在交互对话中提出面向目标的动作，并通过功能推理推断出屏幕的整体功能。

Ferret-UI 建立在 Ferret 的基础上。Ferret 是一个 MLLM，在不同形状和细节水平的自然图像中实现空间参考和基础。无论是点、框还是任何自由形式的形状，它都可以解释相应区域或对象并与之交互。Ferret 包含一个预训练的视觉编码器（例如 CLIP-ViT-L/14）和一个 Decoder Only 的语言模型（例如 Vicuna）。此外，Ferret 还采用了一种独特的混合表示技术，该技术将指定区域转换为适合 LLM 处理的格式。本质上，空间感知视觉采样器旨在熟练地管理不同稀疏度级别的区域形状的连续特征。虽然 Ferret-UI-base 是基于 Ferret 的架构，但 Ferret-UI-anyres 包含额外的细粒度图像功能。特别是，预训练的图像编码器和投影层为整个屏幕生成图像特征。对于基于原始图像长宽比获得的每个子图像，都会生成额外的图像特征。对于具有区域参考的文本，视觉采样器会生成相应的区域连续要素。LLM 使用全图像表示、子图像表示、区域特征和文本嵌入来生成响应。

Ferret-UI 对基本任务的处理流程：UI 检测器输出所有检测到的元素，以及每个元素的类型、文本和边界框。这些检测用于为基本任务创建训练样本。对于定位任务，使用所有元素检测来创建一个用于控件列表的样本，而其余任务一次专注于一个元素。将元素分为图标、文本和非图标/文本控件。对于每种类型，创建一个指代样本和一个定位样本。 Ferret-UI 对复杂任务的处理流程：首先从检测输出中归一化边界框坐标，然后将检测、提示和可选的单次示例发送到 GPT-4。对于详细的描述和函数推理，将生成的响应与预先选择的提示配对，以训练 Ferret-UI。对于对话任务，直接将 GPT-4 输出转换为多回合对话。

通过精心设计“任意分辨率”（anyres）以适应各种屏幕宽高比，以及策划包含广泛的基本和高级 UI 任务的训练样本，Ferret-UI 在引用、定位和推理方面表现出显著的熟练程度。这些增强能力的引入预示着在众多下游 UI 应用中或将取得重大进步，从而扩大 Ferret-UI 在这一领域所能提供的潜在益处。

3 Apple Intelligence 作为系统级 AI，深入融合到各应用中，具备跨应用的信息整合能力

Apple Intelligence 融入 iOS、macOS、iPadOS 层面，于应用中直接调用 AI 能力。用户无需在单独的 AI 助手工具与应用之间来回切换。作为苹果终端的 AI 核心交互入口，Siri 开启了智能助手新时代。Apple Intelligence 赋能使得 Siri 变得更加智能。凭借全新设计、更丰富的语言理解能力，以及便捷输入 Siri 的能力，用户与 Siri 的交流比以往任何时候都更加自然。Siri 具备对用户个人环境的感知、在应用程序中和跨应用程序采取行动的能力，以及有关设备功能和设置的产品知识等，为用户提供帮助。Siri 采用全新设计，更深入地融入了系统体验，优雅的发光环绕在屏幕边缘。Siri 可为终端设备的功能和设置提供循序渐进的指导。更丰富的语言理解和增强的语音使得用户与 Siri 的交流更加自然。 Siri 未来将具备屏幕感知功能，可以理解屏幕上的内容并采取行动。了解用户的个人环境，Siri 能够以独有的方式帮助用户查找信息。使用 Siri 在应用程序中和应用程序之间无缝地采取行动。

苹果智能技术驱动新的写作工具，帮助用户在几乎所有书写场合找到最恰当的措辞。借助增强的语言能力，用户可在几秒内总结整场讲座，获取冗长群聊的简短版本，并通过优先通知来减少不必要的干扰。这些功能均能在应用界面下即时完成。

多模态能力：Apple Intelligence 可提供更人性化的视觉表达方式。创造个性化的原创图像和全新的 Genmoji；将粗略的草图转换为相关的图像，用图像棒补充笔记；根据用户提供的描述制作一部自定义的记忆短片：Image Playground 根据用户描述、甚至照片库中的人，在几秒内生成原创图像并可共享。 Image Wand 可在 Notes 中将粗略草图转换为相关图像；在草图周围画一个圆圈， Image Wand 将分析其周围的内容，以产生互补的视觉效果；用户可以圈出一个空白区域，Image Wand 将使用周围的上下文来创建图片。可将相关照片整理成一部有用户自己叙事弧线的电影。根据用户要查找的内容的要求，在照片应用程序中搜索照片和视频。Apple Intelligence 可以在视频剪辑中找到符合用户搜索描述的特定时刻，并将其带到正确的位置。

Apple Intelligence 跨应用的信息整合能力。通过为照片、日历、行程和文件等内容创建语义索引，Apple Intelligence 能从各种应用中整理和提取信息，找出相关个人数据并提供给 AI 模型，模型能在充分了解用户背景和个人情境的基础上更好地提供智能服务。也就是说，模型能发现并理解跨 APP 之间的信息（早期以原生应用为主，部分第三方亦会支持调用），具备跨平台信息处理能力。而这得益于苹果在系统+模型+芯片+终端的一体化优势。

Apple Intelligence 与 OpenAI 的 ChatGPT 无缝集成。随着 OpenAI 的 ChatGPT集成到 Siri 和写作工具中，用户可以获得更多的专业知识，而无需在工具之间切换。Siri 可以利用 ChatGPT 处理某些请求，包括有关照片或文档的问题。使用“在写作工具中创作”，用户可以从头开始创建和演示原创内容。用户可以控制何时使用 ChatGPT，并且在共享用户的任何信息之前都会被询问。用户可以免费访问 ChatGPT，而无需创建帐户。GPT Plus 用户可以连接帐户以访问 GPT中的付费功能。

4 Apple Intelligence 或带动苹果硬件产品的换机周期

根据苹果官网所示，支持 Apple Intelligence 端侧运算的芯片和终端要求如下： iPhone 目前仅支持 A17 Pro，满足要求的仅 iPhone 15 Pro/Pro Max； Mac 和 iPad 端支持 M1 及以上版本的芯片，覆盖了苹果所有 PC ARM 芯片，近几年基于 M 芯片的苹果 Mac、iPad 基本都支持由于对旧款硬件产品的支持有限，Apple Intelligence 或带动苹果硬件产品线的换机周期。特别是 iPhone 支持的旧款机型较少，iPhone 或存在更强的换机需求。

由于本地运行 AI 模型对算力和内存有一定的要求，新一代 AI 手机需具备至少 30 TOPS 性能的 NPU 能运行 AI 模型，内存至少 8GB 容量，而目前仅有 iPhone 15 Pro/Pro Max 支持运行 Apple Intelligence。从历史上的销售来看，每次较大力度的产品创新可以促进 iPhone 的销量，Apple Intelligence 或带动苹果 iPhone 的换机周期。今年 9 月份 iPhone 16 的新机发布会值得期待。根据 Counterpoint 的数据统计，iPhone 15 Pro/Pro Max 合计占据 iPhone 24Q1 总销量的 45%。根据 CCS Insight 统计，iPhone 的全球整体保有量达到 13 亿，理论上存量用户是未来 AI iPhone 换机的潜在主力。

由于 M 芯片强劲的算力和内存性能，Mac 和 iPad 对 Apple Intelligence 的支持较大，搭载 M1 及以上版本芯片的终端基本都支持。

苹果自 2020年 11月开始推出搭载 M芯片的 Mac 和 iPad。考虑到最长十年的使用寿命，非 M 芯片的 Mac 的保有量至少 1.98 亿台，非 M 芯片的 iPad 的保有量至少 5.38 亿台。

5 苹果原生应用与 AI 融合，或提升软件服务业务价值

软件服务业务是苹果近十多年来增长最快的业务之一，FY2006-FY2023 的年复合增速达到 21.4%。软件服务业务主要包含了 App Store、Apple Care、iCloud、音乐、TV、游戏、 Apple Pay 等产品和服务。 Apple one 以较低的资费（19.95 美元/月、25.95 美元/月、37.95 美元/月）捆绑最多 6 个苹果账户订阅，其中包括高达 2TB 的 iCloud+存储空间。通过家庭计划或卓越理财计划，用户最多可邀请 5 个人加入，并在他们的所有设备上进行私人访问。预计未来更广泛的非英语语言功能、与第三方应用程序的命令/控制集成、以及可能增加的 AI 订阅服务将为软件服务业务带来更多价值。

此外，长期来看，苹果原生 APP 与 AI 的深度融合，未来或有机会扩展更多的 AI 应用付费市场，有利于提升苹果在软件业务领域的价值量。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）