如何看待AI手机系统化之路？

提问时间：2024/12/03
浏览次数：171
提问者：匿名用户
举报
分享微信 QQ 微博

如何看待AI手机系统化之路？

标签

手机
AI

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/12/03 15:17

目前实现手机系统 AI 化有两条技术分支，（1）意图框架与（2）纯视觉，而这两条技术路线的起步，都需要依赖大模型对手机屏幕的理解与任务规划。

Ferret-UI 作为多模态大语言模型，作用是帮助 Apple Intelligence 理解用户屏幕上的内容，为 Siri 获得更好的上下文理解。苹果于 2024 年4 月8 日发布Ferret-UI，并于24年7月将模型升级到Ferret v2，目前有70亿与130亿参数两个版本的Ferret 模型。

Ferret-UI 具备 7 项基本功能和 4 项高级功能。基本功能可具体区分为引用和定位两大板块，通过以下两步技术实现：一是定义和构建UI 引用和定位任务；二是在模型训练中添加任务，包括一系列 UI 引用任务（OCR、图标识别、控件分类）和定位任务（查找文本、查找图标、查找控件、控件列表），一共可完成7项基本功能。高级功能则通过 GPT-4 生成数据进行模型训练实现，包括详细描述、感知对话、交互对话和功能推断等。

Ferret-UI 与 GPT-4V 相比，在基础功能上表现明显更好，高级功能中的对话相关功能表现不及 GPT-4V；虽然 GPT-4V 解答能力强，但在需要精确的边界框以及需要精确到较小区域的应用中时，Ferret-UI 的表现更为突出，而这也正是Ferret-UI 的优势所在。与苹果类似，谷歌也推出了类似屏幕理解模型—ScreenAI（2024 年1 月17日），用于理解 UI 和信息图表的类型和位置，包括针对图表、插图、地图等信息图表的问题回答，以及对 UI 上的元素进行注释、摘要、导航和问题回答。谷歌DeepMind 团队训练了三种不同大小的模型，包含 670M、2B 和5B参数。在大模型通过屏幕理解了用户需求，并拆解任务完成所需步骤后，如何与App进行互动成为关键。这里厂商既可选择意图框架方案，也可以选择纯视觉方案。

意图框架方案：在手机后台调用应用 API（须 App 授权），实现任务。以苹果手机为例，实现 Apple Intelligence 分为三步：第一步,借助Ferret-UI 实现屏幕上下文理解；第二步，语义信息检索；第三步，借助意图框架（App Intents）实现跨 APP 功能调用。

苹果 App Intent 对开发者友好，谷歌安卓也有类似的意图框架。在应用程序中导入 App Intents 功能较为简单，在学习开发者文档后，使用App Intents 将数据类型实现为 Entities, 并使用 App Intents 设置 Shortcuts 的过程十分简易。谷歌的意图框架方案 — App Actions，于 2019 年在 Google I/O 大会上首次亮相。整体来看，苹果的封闭系统带来许多便利，如容易适配、开发门槛低等。而谷歌的安卓系统厂商众多，不同厂商的设备型号繁多，适配难度相对更大。

安卓与手机厂商之间有直接利益博弈。Google Assistant 与android intents 有将更多流量吸引至谷歌平台本身的趋势，而开发者和其他厂商使用该功能的目的则是增加自身的流量。双方存在利益冲突，其中存在的流量利益博弈使开发者更为谨慎。有些厂商会对 Android intents 功能设置一定的限制，进而限制AI 功能的实际效果。这也是国内安卓厂商倾向发布自己的意图框架系统的原因之一。意图框架目前更容易实现。意图框架方案的优点在于算力需求与准确度，其算力需求在于屏幕理解与任务拆解，在任务执行上，由于是调用App API，所需算力较小，同时准确度有保障。但是需要第三方 App 厂商配合接入，如何说服第三方 App 加入生态是苹果等手机厂商需要解决的难题。

纯视觉方案—以 Mobile Agent 为例：北京交通大学和阿里巴巴合作研发的Mobile-Agent-v2（2024 年 6 月发布），采用纯视觉方案实现自动化手机操作。该架构由三个代理组成：规划代理（Planning Agent）、决策代理（Decision Agent）和反思代理（Reflection Agent）。Mobile-Agent-v2 无需额外的训练和探索，借助中枢模型强大的操作能力，便能够实现即安装即使用。

该模型解决了追踪任务进度和追踪重点内容上的困难。此前大模型需要记忆每一步操作和相应的屏幕状态，带来了过长的标记序列以及交错的文本图像数据格式，增加了代理追踪任务进度的难度。Mobile-Agent-v2 引入规划代理，将冗长的操作历史转化为纯文本，加快决策代理的处理速度，并减少转化过程中因潜在信息丢失而导致的决策失误。

除了 Mobile Agent 以外，我们看到智谱 AI、谷歌、微软、Anthropic、腾讯等机构也在研究类似的纯视觉方案。

纯视觉方案的优缺点鲜明。其优点是“第三方零适配”，可以直接模拟人类操作，无需第三方应用厂商授权，模型能力一旦突破，可扩展性更加大。但其劣势也很明显，其响应速度取决于模型运行速度，目前仍需依赖云端算力，同时，由于模型幻觉问题，准确率目前低于意图框架。纯视觉模型需要突破的关键主要是“成功率”与“速度”：1) 成功率：纯视觉方案的成功率主要由“精准操作”与“任务规划”决定。（a）精准操作：智能手机的屏幕中元素众多，甚至包含了如广告等干扰项，如何训练模型精准识别并操作屏幕的元素是一大难题。智谱AI 近期发布的 AutoGLM（2024.10）引入了“基础智能体解耦中间界面”的设计，便是为了解决此问题。（b）任务规划：在面对复杂任务和环境时，模型的任务规划和纠错能力也是决定成功率的重要一环。例如智谱AI 则是通过“自进化在线课程强化学习框架”，引入自进化学习策略，以期最大程度激发模型潜能。智谱 AI 的 AutoGLM 在常见的简单任务中，如大众点评、小红书等成功率为 100%，但在淘宝中的成功率只有93%、而在美团中则只有70%，足见这一任务的挑战性。

2) 执行速度：纯视觉方案的执行速度有待提升，如vivo 开发者大会提到，目前其 PhoneGPT（纯视觉方案）自动完成每一步任务的精确度在94%左右，每一步需要两秒左右，同时目前该功能仍旧通过云端算力运行，未来随着手机算力提升，其希望能够实现端侧化。而据媒体报道，谷歌或即将发布纯视觉方案机器人 Jarvis，能够帮助用户操作 Chrome 浏览器，但其目前的运行速度也相对较慢，在采取每个行动之前都需要思考几秒钟。

参考报告

AI手机专题报告：智能机迈入2.0时代.pdf

AI手机专题报告：智能机迈入2.0时代。AI手机将是消费者换机的增量驱动。手机领域近几年缺乏重大创新，难以驱动大规模换机，根据艾媒预估，2024年中国智能机消费者中，有51%的用户更换周期已达3-4年。AI手机功能与生态的演化，或将带来使用体验的核心升级。目前主要品牌的AI手机的功能相似，如实时翻译、画圈搜索、修图写作等，而智能助手领域最具有想象空间，有机会成为下一波换机潮的关键驱动。意图框架vs.纯视觉方案。智能助手的实现关键在于人机交互及外部App联动，实现该能力目前有两条技术分支：（1）意图框架，需要第三方App授权，但技术相对成熟，硬件算力要求低；与（2）纯视觉方案，无需授权，但技术仍...

查看详情

如何看待AI手机系统化之路？

AI手机专题报告：智能机迈入2.0时代.pdf

传音控股手机业务布局情况如何？

手机厂商布局情况如何？

手机行业人群与货品趋势如何？

手机数码市场现状、消费路径、场景与营销策略分析

各手机SoC厂商AI进展如何？

传音控股手机业务布局及成长空间如何？

各厂商AI手机进展如何？

如何看待手机智能化历程？

手机直连卫星的方式有哪些？

如何看待中国手机品牌在印度的发展？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王