如何看待智谱的Agent能力?

如何看待智谱的Agent能力?

最佳答案 匿名用户编辑于2024/12/24 13:58

智谱的 Agent 能力主要来源于其底层大模型的训练与迭代:

1.CogAgent:CogVLM 结合高分辨率交叉模块,实现高效 GUI 推理

CogAgent 是 18B 参数的视觉语言模型(VLM),专门用于 GUI 理解和导航。2023 年 12 月,清华 KEG 实验室与智谱 AI 联合推出了 CogAgent,一个通用的视觉理 解大模型,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可接 受 1120×1120 的高分辨率图像输入,使其能够识别微小的页面元素和文本。 CogAgent 是基于预训练的 VLM(CogVLM-17B,开源大型视觉语言模型),并添 加了一个交叉注意模块(EVA2-CLIP-L,0.30B 参数的高分辨率图像编码器)来处 理高分辨率输入。添加该模块主要是因为高分辨率图像会导致极大的计算时长和 内存开销:视觉语言模型通常将文本和图像特征序列连接起来作为输入提供给解 码器,因此自注意力模块的计算成本与视觉补丁的数量成二次方。在低分辨率下, 图像能够有效地描绘大多数物体和布局,然而在清晰呈现文字方面有所不足;高 分辨率模块强调与文本相关的特征,对于理解图形用户界面至关重要。因此,该 方法通过合理分配资源,使模型能理解高分辨率的 GUI 图片,同时有效降低了显 存与计算开销。

预训练数据集与训练方法与一般多模态训练有明显不同:(1)文本识别:识别高 分辨率图像中各种大小、方向和字体的文本能力,数据包括来自语言预训练数据 集(8000 万)的合成渲染图像中的文本、自然图像的光学字符识别(OCR)(1800 万张)、学术文献(9M);(2)视觉定位:图像中文本和对象的定位能力,使用从 LAION-115M 中采样的包含 4000 万张图像及其图像-标题对的构建的视觉定位数 据集,将标题中的实体与边界框相关联以指示它们的位置;(3)GUI 图像分析: 对 GUI 图像(如网页)的专门理解能力,作者设计了两个开创性的 GUI 定位任 务,一是 GUI 引用表达式生成(REG),即模型根据屏幕截图中的指定区域为 DOM (文档对象模型)元素生成 HTML 代码,二是 GUI 引用表达式理解(REC),即 为给定的 DOM 元素创建边界框。 为提升模型性能,并确保其在 GUI 环境中与人类指令保持一致,需要进行模型微 调与对齐。作者手动从手机和电脑收集了超过 2,000 张截图,每张都由人类标注 员以问答的形式标注了屏幕元素、潜在任务和操作方法。同时还利用 Mind2Web 和 AITW 这两个专注于网络和安卓行为的数据集,并使用 GPT-4 将其转换为自然语言的问答格式。此外,作者将多个公开可用的视觉问答(VQA)数据集纳入对 齐数据集中,提升模型与人类行为的一致性。 CogAgent 作为一个通用的视觉语言模型,在众多视觉问答基准测试中实现了最 先进的水平,包括 VQAv2、OK-VQA 等。测试发现,CogAgent 在一般视觉问答 与富含文本的视觉问答基准测试当中都表现优异,尤其相比通用模型有明显得分 优势,与微调专业模型相比也属于领先梯队。此外,CogAgent 在 PC 和 Android GUI 导航任务 Mind2Web 和 AITW 上也优于基于 LLM 的方法的模型,如 GPT-4、 LLaMA2 等。

2. AutoWebGLM:基于大语言模型的 Web 导航 Agent

通过简化 HTML 增强网页阅读能力,添加人类与 AI 混合方法构建的网络浏览数 据集进行微调,大幅提升大语言模型的 Agent 能力。2024 年 10 月,清华与智谱 团 队 发 布 基 于 大 语 言 模 型 ChatGLM3-6B 微调的 用 于 网 页 自 动 导 航 的 AutoWebGLM。该模型由两个关键组件组成:LM 代理和交互框架。LM 代理从各 种来源获取数据进行学习,利用强化学习和 RFT 来增强网页浏览能力;交互框架 使用各种网页处理模块来组织简洁的 HTML 和其他信息,供 LM 代理做出决策, 然后由自动化浏览程序执行这些决策。该模型有几大创新点解决了传统 LLM 的 痛点问题:

HTML 简化算法降低了 HTML 文本数据的复杂性:作者通过 HTML 简化和 OCR(光学字符识别)模块处理信息,在获取 HTML 和网页截图后生成简化 的 HTML 表示形式,并为 Agent 交互标记了可操作元素。OCR 模块用于在图 像解析期间标注文本元素。

采用一种人类与 AI 混合的方法来构建网络浏览数据进行课程训练,实现网 页上操作的通用性:鉴于人工成本高昂以及当前大模型在自动数据生成方面 的不足,作者在网页识别、简单任务操作、复杂任务操作构建方面都采用了 人机混合的方法,人工筛选网站并构建网页操作类型分割,大模型辅助生成 任务和操作意图。

通过强化学习和拒绝采样微调(Rejection Sampling Fine-Tuning)来增强模 型,以进一步促进网页理解、浏览器操作和高效的任务分解:将模型采样的 输出与正确答案相结合,构建具有正负对的对比数据,让模型通过认识自己 的错误进行强化学习;拒绝采样微调采用监督学习模型来生成推理路径,奖 励模型会收集准确并拒绝错误的路径,随后将其用作扩充的微调数据集。

为解决高质量、复杂的网页浏览数据稀缺的问题,创建合适的训练数据集非常关 键。数据集构建分为两个主要阶段,第一阶段是网页识别任务和简单任务操作构 建,第二阶段是复杂任务构建。

网络识别的主要目标包括理解特定的 HTML 格式、识别不同类型的网络元素 (如文本框、按钮、图像等),以及理解这些元素在用户交互中的作用。简单 任务操作数据集的主要目标是训练模型执行单步网络操作。这包括在网页上 执行基本功能,如点击链接、填写表单或导航到特定部分。

通过复杂网络任务开发数据集,使模型能够在网络浏览场景中进行规划和推 理。数据集中的每个样本都包含复杂网络浏览任务、完成该任务的操作序列 以及每一步的意图。通过浏览器插件,利用人工标注来捕获网页任务执行情 况,该插件记录网站任务期间的操作。为实现高效链式思考推理,使用 GPT4 作为操作意图的预测器。

AutoWebBench 在小参数规模下实现更高的网页导航能力。作者建立了一个双语 (中文-英文)基准 AutoWebBench,并评估了公开可用的代理的能力,还针对众 多基准进行了大量实验,以评估 AutoWebGLM 在涉及英语和中文网站导航的各种 任务中的性能,使用步骤成功率(SSR)作为评估指标。通过在 Mind2Web 上测 试,发现 AutoWebGLM 在跨任务、跨网站、跨域的表现均有明显优势,且其 6B 规模相比其他大多数模型参数量更小;在 MiniWoB++和 WebArena 上实现了效果 最优。

3.AutoGLM:图形用户界面的自主基础 Agent,可用于网页浏览与安 卓手机操作

GUI 场景下实现通用自主 Agent,加速 Agent 于终端落地。虽然基础模型在获取 人类知识方面表现出色,但在动态的现实世界环境中进行决策时往往会遇到困难, 这限制了它们在通用人工智能方面的进展。主要由于 GUI 基础 Agent 的预训练数 据集当中缺乏决策数据,互联网包含大量的静态人类知识,无法充分捕捉人类决 策和环境交互。构建有能力的 GUI 基础代理需要为其注入动态知识,要么通过与 现实世界环境的直接交互,要么通过从合成轨迹中学习。 2024 年 10 月,清华与智谱团队将网络浏览器和手机作为具有代表性的 GUI 场 景,开发了 AutoGLM 作为适用于现实 GUI 交互的基础 Agent 系统,实现适合用 户交付的可部署的 Agent 系统。其中包括了两个创新的设计: 设计一个适当的“中间界面”用于 GUI 控制至关重要,它能够将规划和定位 行为分离,这两种行为分别需要针对灵活性和准确性进行不同的优化。 开发了一种新颖的渐进式训练框架,使 AutoGLM 能够进行自我演进的在线 课程强化学习。 用户可通过语音或文字向 AutoGLM 命令,该模型即可在 App 端自主多步操作, 对于模糊命令,执行过程仍需用户进行选择,但整体大幅简化了操作流程。在诸 如点餐、打车、查询信息并发布等常见场景下取得较高成功率,加速 Agent 进入 端侧应用。

AutoGLM 在基准测试中有显著的进步,缩小了自主 Agent 和人类表现之间的差 距。评估表明,AutoGLM 在多个领域都有效:在网页浏览方面,AutoGLM 在 VABWebArena-Lite 上实现了 55.2%的成功率(第二次尝试提高到 59.1%),在 OpenTable 评估任务上实现了96.2%的成功率。在安卓设备控制方面,AutoGLM在AndroidLab (VAB-Mobile)上实现了 36.2%的成功率,在流行的中国应用程序中的常见任务 上实现了 89.7%的成功率。

参考报告

计算机行业专题报告:“AI操作系统”时代已至.pdf

计算机行业专题报告:“AI操作系统”时代已至。AI+OS,操作系统级Agent开启人机交互革命。AI赋能OS,操作系统级Agent由于其C端入口特性,有望成为首个“爆款”AI应用。当前市场中长期缺乏“爆款”AI应用,我们认为主要系C端大众对AI的感知度仍然较低,尽管有大量可下载、可付费的AI应用存在,但从广大用户体验来讲,各类AI软件对其生活重塑的边际变化不大。而近期,包括手机端苹果、荣耀、Vivo等,以及PC端联想等厂商上新操作系统级Agent作为新的人机交互形态,以端侧入口形式首次深入群众,令其“被迫&rd...

查看详情
相关报告
我来回答