如何看待AI手机系统化之路?

如何看待AI手机系统化之路?

最佳答案 匿名用户编辑于2024/12/03 15:17

目前实现手机系统 AI 化有两条技术分支,(1)意图框架与(2)纯视觉,而这两条技术路线的起步,都需要依赖大模型对手机屏幕的理解与任务规划。

Ferret-UI 作为多模态大语言模型,作用是帮助 Apple Intelligence 理解用户屏幕上的内容,为 Siri 获得更好的上下文理解。苹果于 2024 年4 月8 日发布Ferret-UI,并于24年7月将模型升级到Ferret v2,目前有70亿与130亿参数两个版本的Ferret 模型。

Ferret-UI 具备 7 项基本功能和 4 项高级功能。基本功能可具体区分为引用和定位两大板块,通过以下两步技术实现:一是定义和构建UI 引用和定位任务;二是在模型训练中添加任务,包括一系列 UI 引用任务(OCR、图标识别、控件分类)和定位任务(查找文本、查找图标、查找控件、控件列表),一共可完成7项基本功能。高级功能则通过 GPT-4 生成数据进行模型训练实现,包括详细描述、感知对话、交互对话和功能推断等。

Ferret-UI 与 GPT-4V 相比,在基础功能上表现明显更好,高级功能中的对话相关功能表现不及 GPT-4V;虽然 GPT-4V 解答能力强,但在需要精确的边界框以及需要精确到较小区域的应用中时,Ferret-UI 的表现更为突出,而这也正是Ferret-UI 的优势所在。 与苹果类似,谷歌也推出了类似屏幕理解模型—ScreenAI(2024 年1 月17日),用于理解 UI 和信息图表的类型和位置,包括针对图表、插图、地图等信息图表的问题回答,以及对 UI 上的元素进行注释、摘要、导航和问题回答。谷歌DeepMind 团队训练了三种不同大小的模型,包含 670M、2B 和5B参数。在大模型通过屏幕理解了用户需求,并拆解任务完成所需步骤后,如何与App进行互动成为关键。这里厂商既可选择意图框架方案,也可以选择纯视觉方案。

意图框架方案:在手机后台调用应用 API(须 App 授权),实现任务。以苹果手机为例,实现 Apple Intelligence 分为三步:第一步,借助Ferret-UI 实现屏幕上下文理解;第二步,语义信息检索;第三步,借助意图框架(App Intents)实现跨 APP 功能调用。

苹果 App Intent 对开发者友好,谷歌安卓也有类似的意图框架。在应用程序中导入 App Intents 功能较为简单,在学习开发者文档后,使用App Intents 将数据类型实现为 Entities, 并使用 App Intents 设置 Shortcuts 的过程十分简易。谷歌的意图框架方案 — App Actions, 于 2019 年在 Google I/O 大会上首次亮相。整体来看,苹果的封闭系统带来许多便利,如容易适配、开发门槛低等。而谷歌的安卓系统厂商众多,不同厂商的设备型号繁多,适配难度相对更大。

安卓与手机厂商之间有直接利益博弈。Google Assistant 与android intents 有将更多流量吸引至谷歌平台本身的趋势,而开发者和其他厂商使用该功能的目的则是增加自身的流量。双方存在利益冲突,其中存在的流量利益博弈使开发者更为谨慎。有些厂商会对 Android intents 功能设置一定的限制,进而限制AI 功能的实际效果。这也是国内安卓厂商倾向发布自己的意图框架系统的原因之一。意图框架目前更容易实现。意图框架方案的优点在于算力需求与准确度,其算力需求在于屏幕理解与任务拆解,在任务执行上,由于是调用App API,所需算力较小,同时准确度有保障。但是需要第三方 App 厂商配合接入,如何说服第三方 App 加入生态是苹果等手机厂商需要解决的难题。

纯视觉方案—以 Mobile Agent 为例:北京交通大学和阿里巴巴合作研发的Mobile-Agent-v2(2024 年 6 月发布),采用纯视觉方案实现自动化手机操作。该架构由三个代理组成:规划代理(Planning Agent)、决策代理(Decision Agent)和反思代理(Reflection Agent)。Mobile-Agent-v2 无需额外的训练和探索,借助中枢模型强大的操作能力,便能够实现即安装即使用。

该模型解决了追踪任务进度和追踪重点内容上的困难。此前大模型需要记忆每一步操作和相应的屏幕状态,带来了过长的标记序列以及交错的文本图像数据格式,增加了代理追踪任务进度的难度。Mobile-Agent-v2 引入规划代理,将冗长的操作历史转化为纯文本,加快决策代理的处理速度,并减少转化过程中因潜在信息丢失而导致的决策失误。

除了 Mobile Agent 以外,我们看到智谱 AI、谷歌、微软、Anthropic、腾讯等机构也在研究类似的纯视觉方案。

纯视觉方案的优缺点鲜明。其优点是“第三方零适配”,可以直接模拟人类操作,无需第三方应用厂商授权,模型能力一旦突破,可扩展性更加大。但其劣势也很明显,其响应速度取决于模型运行速度,目前仍需依赖云端算力,同时,由于模型幻觉问题,准确率目前低于意图框架。 纯视觉模型需要突破的关键主要是“成功率”与“速度”:1) 成功率:纯视觉方案的成功率主要由“精准操作”与“任务规划”决定。(a)精准操作:智能手机的屏幕中元素众多,甚至包含了如广告等干扰项,如何训练模型精准识别并操作屏幕的元素是一大难题。智谱AI 近期发布的 AutoGLM(2024.10)引入了“基础智能体解耦中间界面”的设计,便是为了解决此问题。(b)任务规划:在面对复杂任务和环境时,模型的任务规划和纠错能力也是决定成功率的重要一环。例如智谱AI 则是通过“自进化在线课程强化学习框架”,引入自进化学习策略,以期最大程度激发模型潜能。智谱 AI 的 AutoGLM 在常见的简单任务中,如大众点评、小红书等成功率为 100%,但在淘宝中的成功率只有93%、而在美团中则只有70%,足见这一任务的挑战性。

2) 执行速度:纯视觉方案的执行速度有待提升,如vivo 开发者大会提到,目前其 PhoneGPT(纯视觉方案)自动完成每一步任务的精确度在94%左右,每一步需要两秒左右,同时目前该功能仍旧通过云端算力运行,未来随着手机算力提升,其希望能够实现端侧化。而据媒体报道,谷歌或即将发布纯视觉方案机器人 Jarvis,能够帮助用户操作 Chrome 浏览器,但其目前的运行速度也相对较慢,在采取每个行动之前都需要思考几秒钟。

参考报告

AI手机专题报告:智能机迈入2.0时代.pdf

AI手机专题报告:智能机迈入2.0时代。AI手机将是消费者换机的增量驱动。手机领域近几年缺乏重大创新,难以驱动大规模换机,根据艾媒预估,2024年中国智能机消费者中,有51%的用户更换周期已达3-4年。AI手机功能与生态的演化,或将带来使用体验的核心升级。目前主要品牌的AI手机的功能相似,如实时翻译、画圈搜索、修图写作等,而智能助手领域最具有想象空间,有机会成为下一波换机潮的关键驱动。意图框架vs.纯视觉方案。智能助手的实现关键在于人机交互及外部App联动,实现该能力目前有两条技术分支:(1)意图框架,需要第三方App授权,但技术相对成熟,硬件算力要求低;与(2)纯视觉方案,无需授权,但技术仍...

查看详情
相关报告
我来回答