苹果发力 AI,引领手机产业链新一轮创新。
1.苹果陆续推出 AI 创新,产品化进程加速
“Let Loose”发布会苹果首次针对 AI 发布软硬件更新,标志苹果开始发力AI 创新。北京时间 5 月 7 日晚,苹果举办了名为“Let Loose”的春季新品发布特别活动。许多此前多次爆料的产品得到正式发布,分别包括新款 iPad Pro、iPad Air、Apple pencil pro、妙控键盘等。其中 iPad Pro 新款早于 Mac 首发 M 系列最新芯片,加快硬件算力升级速度,软件端iPad应用增加 AI 功能,将 AI 作为新款 iPad 旗舰产品的核心卖点,凸显了苹果对AI 创新的重视。
苹果升级芯片算力,新款 Pad Pro 搭载 M4 芯片显著提升算力性能。在“Let Loose”发布会上,发布了即将用于新款 iPad Pro 上的 M4 芯片,M4 芯片也是苹果首款率先应用于iPad产品的 M 系列芯片,iPad 产品也直接从上代 M2 芯片升级到最新款M4 芯片。M4 芯片采用了更先进的第二代 3 纳米制程,在性能上实现了显著提升,晶体管数量达到280 亿,提高整体能效,M4 芯片仅需一半耗电量,就能达到与 M2 芯片同等性能。 M4 芯片在 CPU、NPU 核心上有明显升级,更加适配 AI 需求。新款M4 芯片包含一个最多达到 10 核心的 CPU,其中包括最多 4 个性能核心和 6 个能效核心,相比前代搭载在iPadPro上的 M2 芯片,M4 芯片的全新中央处理器性能提升最高达 1.5 倍。M4 芯片内置的极高速NPU神经网络引擎,更加适配市场主流的 AI 模型,是 Apple 迄今为止最强大的神经网络引擎,运算速度最高可达每秒 38 万亿次。
苹果不仅在硬件端展示 AI 升级,应用层 AI 化趋势显著。在“Let Loose”发布会上,苹果展示 Final Cut Pro、Logic Pro 等 iPad 应用,在 AI 加持下,原生APP 大幅提升使用效率。FinalCut Pro 新增 AI 辅助功能,包括最新的 “优化光线和颜色”功能,简单一步就能优化画面的颜色、色彩平衡、对比度和亮度,“流畅慢动作”功能根据用户需求自动生成视频帧,提高视频质量。Logic Pro 配备 AI 功能,新增 AI 技术可模拟鼓手、贝斯手、键盘手等乐队组成部分,通过 AI 智能生成不同风格演奏效果,并能够模拟一系列全球知名录音室硬件混合制作的声音,大幅提高音乐制作效率。
苹果 WWDC 发布 Apple Intelligence,苹果生态操作系统全面AI 化。苹果于北京时间6月 11 日在 Apple Park 举办特别活动 WWDC24。WWDC24 旨在展示新一代iOS18、iPadOS18、macOS15、watchOS11、tvOS18 和 visionOS 的前沿创新,其中手机与PC 操作系统将会引入Apple Intelligence,在操作系统底层技术上引入 AI 模型,赋能APP 应用,为未来APP全面AI化打下坚实基础。 iOS 18 的重大变革是引入了大量的 AI 功能,手机使用体验显著升级。苹果将AppleIntelligence 的功能总结提炼为 Powerful、Intuitive、Integrated、Personal、Private 五大维度,新的 AI 功能将提升用户的使用体验,通过智能交互提高用户使用效率,结合原生APP,实现多角度多功能的快速交互与响应,将 AI 作为强大的逻辑推理工具实现产品化。通过Siri 作为信息入口,AI 能智能理解用户指令,并且通过 AI 可实现跨应用的协同交互,实现Siri 可跨APP进行任务分配,同时可自动操作 APP 完成具体任务。最终体现形式包括断续对话、屏幕感知、图片生成、文字处理等功能,从而实现手机操作的进一步简洁化和智能化。Apple Intelligence 仅支持 A17 Pro 以及 M 系列芯片,高芯片门槛将加速苹果手机存量用户换机。iOS18 系统支持较为广泛的苹果机型,根据苹果发布会信息,其搭载的AppleIntelligence 仅支持A17 Pro以及M系列芯片,对应手机终端目前仅支持iPhone15 Pro及ProMax两款机型,这也将促进老款机型用户在今年进行换机,加速手机更换周期。市场存量大量老款苹果手机用户,随着 Apple Intelligence 发布,新老款手机在 AI 功能的巨大差异将催化老用户加速换机,从而拉动苹果整体销量提升。

AI 充分赋能苹果应用,Apple Intelligence 充分展示其系统+应用的AI 生态。苹果在发布会上展示了基于新款 iOS18 系统的部分 AI 应用,涵盖了文字、音频、图像等多个维度,大幅提升原有 APP 的功能丰富度和使用便利性。文字领域实现文本矫正、个性化重写,以及消息的总结及提醒,文字信息的跨 APP 调用等;音频领域主要集中在通话录音、转写、总结等功能;图像领域可实现文生图、图片优化、表情生成、相册图片智能分类、搜图、智能P图等功能。苹果应用自身系统的 AI 能力,极大优化 APP 的智能化程度,当前原生应用已得到AI赋能,后续伴随苹果开源部分边缘模型及 AI 功能,预计第三方APP 也将实现多元化的AI 功能,同时用户可通过 Apple Intelligence 实现 APP 之间的互联与协同。Apple Intelligence 系统级 AI 融合应用 AI,相较安卓端优势明显。安卓机当前发布的AI应用与苹果功能类似,苹果的优势体现在系统级 AI 的整合能力。苹果自研的边缘模型拥有高精度理解力,更直观理解用户的个性化需求,然后通过跨 APP 的协同能力,处理用户复杂的需求,同时由于 iOS 系统的 APP 具有较高标准化,也使得跨APP 协同难度显著降低。在苹果系统级 AI 的强大功能下,预计苹果对于 APP 厂商将拥有更高话语权,用户也将倾向于通过系统 AI 来选择和使用 APP。
2. 苹果自研边缘端模型技术领先,模型能力构建高壁垒
苹果系统级 AI 的底层技术来源于自研边缘模型,模型优势是苹果领先安卓厂商的核心壁垒。苹果自 2024 年起,密集发布 AI 模型论文,自研边缘端小模型在指令准确性、交互多样性等方面处于端侧领先水平。苹果发布的“Ferret-UI”、“MM1”、“OpenELM”、“MGIE”等边缘模型,在前端控制、图像、文本等细分方向实现 AI 功能创新,通过模型间的配合实现多维度复杂功能。 苹果通过多模型融合,实现云边端无缝衔接,大幅提升AI 使用体验。苹果在使用自研模型的同时,引入 openAI,搭载 GPT-4o 最新云端模型,实现端侧+私有云+外部模型接入三重方式共同推理的模式,加速 AI 应用生态的快速形成。同时苹果注重隐私保护,在数据上云前需用户许可,保证隐私数据安全。
2.1 苹果 AI 模型:前端控制模型 Ferret UI,极致简化用户前端操作
前端控制模型“Ferret-UI”,解放双手,AI 实现智能操作控制。4 月8 日,苹果发表论文介绍了一个名为“Ferret-UI”的新模型,此模态模型可以实现理解手机屏幕并执行任务,专为提升移动端 UI 屏幕的理解能力而设计,具备引用、定位和推理能力。苹果通过将整个屏幕分成为子图像来解决屏幕尺寸和分辨率标准化问题。每个屏幕根据原始纵横比分为 2 个子图像,以便同时适应竖屏和横屏,这样能够灵活地适应各种屏幕长宽比,并且利用增强的视觉特征放大细节。同时模型训练了大量各类前端UI 数据,涵盖了从简单的语义和空间任务到复杂的推理任务,有效提升了屏幕理解和执行任务的准确性。
2.2 苹果 AI 模型:边缘多模态模型 MM1,实现手机图文分析能力
“MM1”模型实现边缘端图文多模态解析能力,边缘端模型分析准确率处于行业第一梯队。苹果发布论文公开自研的多模态大模型 MM1,该模型最高参数可达300 亿,同时支持30亿、70 亿参数的变体。模型由密集模型和混合专家(MoE)变体组成,模型在多模态基准、上下文预测、多图像和思维链推理等方面均有不错表现。 在论文中,苹果对“MM1”模型进行了测试,测试结果显示MM1-3B-Chat 和MM1-7B-Chat模型,尽管准确率不如谷歌的 Gemini 和 OpenAI 的 GPT-4V,但优于市面上绝大多数相同规模的模型。
2.3 苹果 AI 模型:边缘小模型 OpenELM,开源模式赋能平台开发者
“OpenELM”模型在小参数形式下处理文本信息效率最优,开源模式赋能iOS平台APP开发者。苹果发布模型 OpenELM( Open-source Efficient Language Models ),是一个适合在边缘 AI 硬件上部署的开源小模型。OpenELM 共有八个模型:四个预训练模型和四个指令调整模型,模型参数大小分别在:2.7 亿、4.5 亿、11 亿和 30 亿个参数。而微软Phi-3 模型为38亿,因此前者在小型机型上运行成本更低,可在手机和笔记本电脑等移动设备上运行,在AI 硬件运行极具性价比。尽管最小的模型只有 2.7 亿参数,但苹果使用了1.8 万亿tokens 的数据进行预训练,这是其小参数下仍能表现出色的原因之一。苹果通常在手机领域采取闭源策略,但openELM 模型采用开源模式,通过开源模式吸引用户,实现苹果应用产品的全面AI 化。
2.4 苹果 AI 模型:垂类应用模型 MGIE,图片编辑能力显著优于同类产品
苹果“MGIE”模型定位图像编辑领域,AI 功能简化操作,产品力显著领先同类产品。MGIE(MLLM-Guided Image Editing)是一个利用多模态大型语言模型(MLLM)来对图片进行自动修饰的模型,MGIE 基于 MLLM 模型,后者虽然可以同时处理文本和图像,但不能对图片进行编辑,而苹果自研的 MGIE 模型将 MLLM 模型集成到图像编辑过程中,通过MLLM模型提炼用户对于图片修改的关键词,将指令标准化为对应操作,可实现简单的颜色调整到复杂的对象操作。 根 据 苹 果 发 布 的 论 文 《 Guding Instruction-based Image Editing Via Multimodal LargeLanguage Models》 ,MGIE 模型可实现高效的图片编辑效果。通过自然语言指令,模型可实现 Photoshop 风格的图片修改,例如剪裁大小、旋转反转、添加滤镜等,还可对图片的亮度、对比度、清晰度等进行调整,并对图片局部区域进行修改,最终实现智能化的图像处理效果。