2025年计算机行业专题报告:智谱AutoGLM,人机交互范式的创新与探索
- 来源:财通证券
- 发布时间:2025/01/08
- 浏览次数:860
- 举报
计算机行业专题报告:智谱AutoGLM,人机交互范式的创新与探索.pdf
计算机行业专题报告:智谱AutoGLM,人机交互范式的创新与探索。智谱AutoGLM重磅升级,推动人与机器交互方式的范式转变:2024年11月29日,智谱在OpenDay推出升级版AutoGLM,挑战完成复杂任务。未来随着GLM团队继续加速agent模型产品研发,将很大程度上改变人机交互形式,用户一句话操作电脑和手机的范式转变指日可待。手机端AutoGLM可理解超长指令,执行超长任务:根据官方内测用户使用手册,本次手机端AutoGLM升级的重点在于,操作执行不再局限于简单任务场景,也不需要用户手动搭建复杂繁琐的workflow,仅通过自然语言指令即可实现复杂任务的快速执行。从本次系列手机端Au...
1 智谱 AutoGLM 重磅升级,推动人与机器交互方式 的范式转变
智谱推出升级版 AutoGLM。2024 年 11 月 29 日,智谱在 OpenDay 推出升级版 AutoGLM,挑战完成复杂任务。重要进展包括: 手机端:自主执行超过 50 步的长步骤操作,也可以跨 app 执行任务; Web 端:开启“全自动”上网新体验,支持数十个网站的无人驾驶; 桌面端:像人一样操作电脑的 GLM-PC 启动内测,基于视觉多模态模型实 现通用 Agent 技术探索。
AutoGLM 推动人与机器交互方式的范式转变。发布会现场,智谱 CEO 张鹏介绍 并展示了 AutoGLM 操作手机、电脑,以及手机电脑联动的场景,并表示未来随着 GLM 团队继续加速 agent 模型产品研发,将很大程度上改变人机交互形式,用户 一句话操作电脑和手机的范式转变指日可待。
2 手机端 AutoGLM:理解超长指令,执行超长任务
自然语言指令,实现复杂任务的快速执行。根据官方内测用户使用手册,本次手 机端 AutoGLM 升级重点在于,操作执行不再受限于简单任务场景,也不需要用 户手动搭建复杂繁琐的 workflow,仅通过自然语言指令即可实现复杂任务的快速 执行。本次升级后,手机端 AutoGLM 覆盖范围在常用生活场景迅速铺开,在微 信、小红书、美团等常用平台之上新增抖音、微博、饿了么。同时,一些跨应用 协同长任务也可以执行,例如“在小红书查查上海最好吃的西餐厅,帮我看看他 家在大众点评有没有团购券”。本章节,我们将对手机端 AutoGLM 目前主要支持 应用进行测评。

2.1 社交媒体类测评(微信)
一、微信搜索与内容转发
实际操作: 1. 首先,用户呼唤 AutoGLM,“在微信中搜索关于 1 月 3 日 a 股相关的文章, 并把前三篇发送给我的文件传输助手”。 2. 在获取用户许可后,AutoGLM 打开微信 APP,并在搜索框内输入关键词“1 月 3 日 a 股”,但并没有理解关键词“文章”,随机跳转至“视频号”。3. 在用户手动纠正并筛选一篇相关文章后,AutoGLM 将文章发送至“我的文件 传输助手”。 4. AutoGLM 成功将用户筛选文章发送至文件传输助手。 5. 告知用户任务完成。
关键词处理有误,用户纠正后完成任务。本次测试中,AutoGLM 对于关键词“1 月 3 日 a 股”理解与执行正确,但并未理解“文章”。在用户介入后,AutoGLM 继 续完成任务,并成功将文章发送至用户的文件传输助手。
2.2 美食探店类测评(大众点评、饿了么)
一、大众点评餐厅搜索
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在大众点评上找一家上海浦东南路附 近,人均消费一百元左右的西餐厅”。 2. 在获取用户许可后,AutoGLM 打开大众点评 APP,并在搜索框内输入关键词 “浦东南路”,并在条件筛选内,找到“价格区间”,选择“50-100”。 3. 随后,AutoGLM 在分类中找到“美食”,并找到“西餐”。 4. 在筛选条件后,AutoGLM 进一步获得更精准的搜索结果,并询问用户“查找 到西餐厅有关东小磨东北菜和迷迭巷·致味新疆。你想选择哪家呢?”。5. 在退出对话框后,可以发现根据 AutoGLM 的筛选条件,实际搜索结果为 “AMINO AMIGO(世纪汇店)”和“M·K 意大利餐厅(北外滩来福士店)”, 与 AutoGLM 反馈给用户的结果不一致。
关键词理解与执行正确,但缺乏搜索内容理解导致任务失败。从本次测试中,可 以发现 AutoGLM 对于关键词“浦东南路”、“美食”、“西餐”、“人均消费一百元左 右”理解与执行正确。大众点评根据 AutoGLM 的筛选条件所产生的结果也正确, 但 AutoGLM 在将结果反馈给用户时出现和搜索结果不一致的情况,或表明 AutoGLM 并不理解其搜索到的内容,最终导致任务失败。
二、饿了么点外卖
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在饿了么上点一份我常吃的丰收日的 套餐”。 2. 随后,在获取用户许可后,AutoGLM 打开饿了么 APP,并在搜索框内输入关 键词“丰收日”。 3. AutoGLM 在搜索到“丰收日”后,点击进入,并在搜索框内输入关键词“套 餐”。随后,对用户发起询问,“查找到丰收日餐厅的套餐有联名款酸菜鱼双 人套餐、乐享丰聚双人套餐、红烧大虾带鱼一人食、虾仁芦笋配糖醋排骨一 人食和茶香油爆大虾一人食。你想吃哪个套餐呢?”。4. 用户回答“红烧大虾带鱼一人食”和“虾仁芦笋配糖醋排骨一人食”后, AutoGLM 选择相应结果,并询问用户“你需要餐具吗?”。 5. 用户回答“需要”后,AutoGLM 进入结算页面。可以注意到用户选择了两款 套餐,但 AutoGLM 在选择餐具时只选了一份。
关键词理解准确,任务基本完成。AutoGLM 对于关键词“丰收日”和“套餐”理 解准确,但在进入结算页面后,AutoGLM 对于餐具套数和用户所选套餐数量的对 应关系并无理解。整体看,AutoGLM 理解了任务关键词,基本完成任务。
2.3 好物选购类测评(淘宝、京东、拼多多等)
一、淘宝商品搜索与选购
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在淘宝选购一款联想品牌的 aipc 笔记 本电脑”。 2. 随后,在获取用户许可后,AutoGLM 打开淘宝 APP,并在搜索框内输入“联 想 aipc 笔记本电脑”。 3. AutoGLM 在搜索完毕后,对用户发起询问,“查找到联想 aipc 笔记本电脑有 ThinkBook、Thinkbook 14+/16+ 2024 款等。你想选哪个呢”。4. 用户回答“选一款最贵的”后,AutoGLM 选择排序第一的搜索结果,并询问 用户“查到几款商品类型,你看看有没有喜欢的,比如 14.5 英寸 Ultra5-125H 16G 512G 2.5K 屏等。你想选哪个呢”。可以注意到 AutoGLM 并没有选择最贵的产品。 5. 用户回答“选最顶配的”后,AutoGLM 选择一款显示已经缺货产品,并告知 用户需要自行付款。
购物选品常用词理解有待加强。整个测评过程约 1 分 20 秒。AutoGLM 在此次任 务中正确理解并执行了用户指令。然而,在用户要求 AutoGLM 从搜索结果中执 行“选一款最贵的”出现失误,直接选择了结果排名第一的选项,表明 AutoGLM 对于“贵”的概念或没有理解。在选择产品配置时,AutoGLM 为用户挑选了一款 已经缺货的产品,或表明 AutoGLM 与淘宝 APP 适配不够完善。综合测评来看, AutoGLM 缺乏对用户在购物选品时常用词汇的理解。此外,商品信息本身比其 他品类更复杂,包含的要素更多,因此对 AutoGLM 的理解和信息筛选能力提出 了更高的要求。
二、京东商品搜索与选购
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“在京东里面帮我选购一台华硕品牌最新的 AIPC 电脑,要价格最贵,配置适中的产品”。 2. 随后,在获取用户许可后,AutoGLM 打开京东 APP,并在搜索框内输入“华 硕 aipc 电脑”。AutoGLM 在搜索完毕后,将搜索结果按照价格从高到低排序, 但并没有选择“最新的”产品。随即选择第一个选项。3. AutoGLM 选择第一个选项后,询问用户“查找到符合条件的商品有 Ultra7 265K/96G 等,你先选那个呢”。 4. 用户回答“选择最后一个”后,AutoGLM 进行相应选择并跳转至结算页面, 同时告知用户商品价格并让用户确认付款。
部分关键词理解准确,任务基本完成。整个测评过程约 1 分 40 秒。AutoGLM 对 于关键词“价格最贵”理解准确并执行,但并未执行关键词“最新的”所需匹配 的动作。整体看,AutoGLM 理解了部分关键词,基本完成任务。
三、拼多多商品搜索与选购 1
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我选择一款苹果手机,需要 16 pro max, 在拼多多内选购”。 2. 随后,在获取用户许可后,AutoGLM 打开拼多多 APP,并在搜索框内输入 “苹果手机”。 3. AutoGLM 在搜索完毕后,对用户发起询问,“查找到几款苹果手机,你看看 有没有喜欢的,比如 iphone16 Pro Max、iphone15 Pro Max、iphone16 等。你 想选哪个呢”。 4. 用户回答“选第一个”后,AutoGLM 选择搜索结果第一的“苹果 13 Pro Max”, 并询问用户“你要的苹果 13 Pro Max 有多种颜色,比如白色、粉色和蓝色。 你想选什么颜色呢”。5. 用户回答“选粉色”后,AutoGLM 选择“苹果 13 国行双卡【原装屏】粉色” 并告知用户需要自行付款。
指令理解有待加强。整个测评过程约 1 分 40 秒,相较于用户手动执行类似操作较 慢,主要延迟集中于 AutoGLM 在关键跳转节点需要与用户进行确认,例如在第 一步用户语音呼唤 AutoGLM 并告知任务时,AutoGLM 首先需要识别并理解用户 指令,并等待用户做出确认或修改的动作。在 AutoGLM 跳转至拼多多 APP 后, AutoGLM 在搜索框内输入的指令为“苹果手机”,较用户实际给出的指令有细节 的遗漏,说明 AutoGLM 并没有完全理解用户指令。在任务完成后进入结算阶段 时,AutoGLM 终止运行并通知用户需要自行付款,有效保障了用户的隐私安全。 从拼多多商品选购测评看,AutoGLM 对于用户指令理解有待加强。
四、拼多多商品搜索与选购 2(定性描述)
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我在拼多多里面选择一款苹果手机,要 最新的款式,最高的配置”。 2. 随后,在获取用户许可后,AutoGLM 打开拼多多 APP,并在搜索框内输入 “苹果手机”。AutoGLM 在搜索完毕后,花了较长时间试图根据关键词“最 新的款式”、“最高的配置”进行选择,但最终失败。 3. AutoGLM 在放弃关键词筛选后,询问用户“查找到苹果手机有 iphone16 Pro Max 等,你想选哪个呢”。4. 用户回答“选第一个”后,AutoGLM 进行相应选择并询问用户“你要的苹果 手机有多种规格,比如 13 pro max 6.7 寸黑色国行等,你想选什么规格呢”, 用户回答“我要选择 16pro max”。 5. 由于 AutoGLM 在第 2 步已经无法执行任务,因此任务最终失败。
任务失败,定性描述关键词理解不够完善,APP 适配训练欠缺。此次任务测评耗 时较长,约 2 分 30 秒。AutoGLM 对于用户指令中的定性描述无法执行且耗时较 久,并最终失败。一方面,AutoGLM 没有理解任务关键词“最新的款式,最高的 配置”,另一方面,AutoGLM 与拼多多 APP 的适配训练或不够全面。
五、已购产品评价撰写(淘宝)
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我把我淘宝最新买的一款产品,但是还 没有评价的产品,写一个评价”。 2. 随后,AutoGLM 表示任务不在能力范围内,并询问用户“终止任务”或“可 以试试”。 3. 在用户表示“可以试试”后,AutoGLM 打开淘宝 APP,成功找到 3 个已购买 未评价的产品。 4. AutoGLM 与用户确认选择哪款产品进行评价,“需要和你确认一下订单选项 哦,有选项 1 和选项 2,你要哪个呢”。用户表示“选项一”。可以注意到,虽然 AutoGLM 筛选出 3 个已购买未评价的产品,但实际询问用户时,只提 到了 2 个产品。 5. AutoGLM 在尝试后表明“抱歉,您最新购买的商品还没评价呢”。任务失败。
任务失败,指令理解能力有待加强。此次任务测评耗时约 1 分钟。尽管在淘宝 APP 内撰写评价在 AutoGLM 的测评范围内,但 AutoGLM 在最开始接受任务时即表示 任务不在能力范围内,表明 AutoGLM 对于用户指令理解出现偏差。随后,在尝试 过程中 AutoGLM 通过关键词“最新买的产品”以及“没有评价的产品”找到 3 个 用户已经购买但未评价的产品,但无法分辨哪一个产品是最新买的,也没有理解 关键词“写一个评价”。最终,任务失败。AutoGLM 在其能力范围内的指令理解 能力以及对于触发任务的关键词处理有待加强。
六、购物车选购与结算(淘宝)
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我把我的淘宝购物车里第一个产品进行 付款结算”。 2. 随后,在获取用户许可后,AutoGLM 打开淘宝 APP,找到购物车第一个产品 并选择。 3. AutoGLM 选择后进入结算页面,并告知用户可以结算付款。
关键词理解准确,任务成功完成。整个测评过程约 40 秒。AutoGLM 对于“购物 车”、“第一个产品”、“付款结算”等关键词理解准确,成功完成任务。从此项测 评可以看出,AutoGLM 对于步骤较少,节点清晰的任务完成度更高。
2.4 日常出行类测评(12306、高德地图打车、高德地图导航)
一、高铁票选购 12306
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我用 12306 订购一张,从北京出发到上 海的高铁票,要求出发时间是下周二,最好的出发时间是上午十点左右”。 2. 在获取用户许可后,AutoGLM 打开 12306 APP,并在订购页面选择出发地。 选择期间,AutoGLM 向用户进一步询问北京和上海的具体目的地车站,在 用户回答“北京西站”和“上海站”后,AutoGLM 进一步选择具体车站, 成功执行出发地和目的地车站选择。 3. 随后,AutoGLM 成功选择下周二为出发日。 4. 在关键词“上午十点左右”的处理上停顿较久,且无法做出选择,最终任务 失败。

部分关键词处理无效,条件筛选能力有待加强。本次任务中,AutoGLM 对于关键 词“北京”、“上海”和“下周二”处理正确,并可以根据目的地城市询问用户偏 好的车站。AutoGLM 无法理解或处理关键词“上午十点左右”,表明 AutoGLM 可能无法理解时间概念或无法理解偏定性的关键词“左右”,最终导致任务失败。 我们认为,AutoGLM 对于用户任务的理解有待加强,尤其是对偏模糊的描述语 言理解能力有待加强。
二、高德地图打车
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“帮我用高德地图打一辆车,出发点是北京 市金融中心,终点是北京市南站”。 2. 在获取用户许可后,AutoGLM 打开高德地图 APP,并在打车界面选择相应的 出发地和终点。同时,AutoGLM 向用户确认出发地具体地点,用户回答“选 北京市国际金融中心”。 3. 随后,AutoGLM 向用户进一步询问出发地和终点的地址细节,在用户回答 分别回答后,AutoGLM 根据用户回答成功执行出发地和终点选择。 4. 在获取出发点和终点的地址细节后,AutoGLM 进入车型选择界面,任务成功。
关键词理解准确,任务成功完成。AutoGLM 对于“打一辆车”、“出发地是北京市 金融中心”、“终点是北京市南站”等关键词理解准确,成功完成任务。与上一篇 张购物车结算任务类似,我们认为 AutoGLM 对于步骤较少,节点清晰的任务完 成度更高。
三、高德地图导航
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“用高德地图帮我导航,出发地是北京市金 融街大厦,终点是北京市南站”。 2. 在获取用户许可后,AutoGLM 打开高德地图 APP,并在导航界面选择相应的 出发地和终点。 3. 选择期间,AutoGLM 向用户进一步询问出发地和终点的地址细节。 4. 随后,AutoGLM 进入开始导航界面,任务成功。
关键词理解准确,任务成功完成。AutoGLM 对于“导航”、“出发地是北京市金融 街大厦”、“终点是北京市南站”等关键词理解准确,成功完成任务。与上个打车 任务 AutoGLM 对于步骤较少,节点清晰的任务完成度更高。
2.5 旅游订票类测评(携程)
一、携程机票订购
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“用携程 APP 帮我订购一张,下周二晚上从 深圳飞往北京,北京首都机场的飞机票,要求起飞时间,预计在晚上 7 点到 8 点”。 2. 随后,在获取用户许可后,AutoGLM 打开携程 APP,并在机票订购页面尝试 选择出发地。 3. 在经过近 1 分钟的尝试后,AutoGLM 无法选择“深圳”为出发地,任务未完 成。
语义理解失败,任务未完成。本次任务中,AutoGLM 在第一步对关键词“深圳” 即无法处理,导致任务无法进行。从任务表现看,AutoGLM 可能无法理解“从 xx 飞往 xx”的语义,导致任务失败。
2.6 小红书查攻略-美团批量购买(跨应用协同长任务)
实际操作: 1. 首先,用户语音呼唤 AutoGLM,“在小红书中查找做水果蛋糕的配料,并在 美团中将配料加入购物车”。 2. 随后,在获取用户许可后,AutoGLM 先打开小红书 APP,并在搜索框内输入 “水果蛋糕食材清单”。 3. AutoGLM 在搜索完毕后,选择第一个选项,并打开美团 APP。 4. 进入美团 APP 后,AutoGLM 根据小红书搜索结果依次搜索商品,并将商品 放入购物车中。因为美团 APP 内可选购商品的模块较多,过程中用户进行了 人为干预。 5. 选择完成后,AutoGLM 进入结算页面,并选择商品,任务完成。需要注意的 是,因为小红书搜索结果并不能完全匹配美团 APP 内所提供商品,因此 AutoGLM 在执行时,会选择相似商品。
关键词理解准确,跨应用协同长任务基本完成。AutoGLM 对于关键词任务关键词 理解基本准确,成功在小红书内搜索到合理结果,并识别结果中内容。在跳转美 团 APP 后,AutoGLM 在用户的干预下基本完成选购任务。由于 AutoGLM 的关 键词识别机制,在处理非标准化的搜索(如食品、衣物)时,可能会选择与用户 意图相关度不高的产品,从而无法合理满足用户的需求。
2.7 手机端 AutoGLM 测评总结:简单任务完成度高,未来提升空间大
任务理解与 APP 适配仍有较大提升空间。从本次系列手机端 AutoGLM 测评来看, 我们认为 AutoGLM 整体上仍有较大提升空间。首先,AutoGLM 在任务理解方面 存在不足,有时无法准确捕捉任务关键词,或无法理解用户偏定性的描述。其次, 面对复杂操作,如在 APP 内进行条件筛选,或遇到“缺货”等实际问题时,处理不 够得当,影响任务效果。此外,在执行多步骤任务时,AutoGLM 偶尔会出现较长 的停顿时间,无法及时反馈问题,通常需要人工干预,从而影响实际体验。不过, 在面对打车、导航等简单任务时,AutoGLM 能够迅速完成任务,表现出色。
3 AutoGLM-Web 插件:与用户持续交互反馈,全自 动上网新体验
“无人驾驶”全自动上网新体验。根据官方浏览器插件新手指南,智谱清言插件 依托 Agent 智能体强大的任务规划和屏幕界面信息理解能力,使得操作执行不再 局限于简单的任务场景和 API 调用。用户无需手动搭建复杂繁琐的 workflow,仅通过自然语言指令即可快速完成复杂任务。在真实使用过程中,Agent 具备一定的 判断和自我纠错能力,能够持续与用户进行交互反馈。同时,它还可以调用多种 工具,根据用户需求精准完成操作。升级后,AutoGLM-Web 插件分为两个模式: 1. 通用模式:通用对话、页面总结、页面对话、划线工具、智能写作、网页翻 译等; 2. 高级模式:AutoGLM、站内高级检索、多链接总结、Github Issue 问答。 本章节,我们将对 AutoGLM-Web 插件目前主要能力范围进行测评。
3.1 社交媒体类测评(知乎、微博、豆瓣、贴吧)
一、知乎
在知乎网站内,我们进行了多项测试,包括内容筛选、热榜总结、撰写回复、个 人信息修改等。根据测试结果看,AutoGLM-Web 对于信息筛选,以及操作已经 展示在页面中的关键词成功几率更大,但与网站本身的适配工作还有待完善。 1. 内容筛选(成功):用户发布任务“帮我检索一下三个月内发布的关于智谱的 赞最多的文章”。AutoGLM-Web 成功理解关键词“智谱”、“文章”、“最多赞 同”、“三个月内”并执行。在找到相关文章后,为用户进行了内容总结。
2. 热榜总结(成功):用户发布任务“总结一下今日热榜”。AutoGLM-Web 成功 根据关键词“热榜”找到知乎首页热榜,并为用户进行了内容总结。
3. 撰写回复(失败):用户发布任务“为热榜第一条撰写回复”。AutoGLM-Web 在尝试点击热榜第一条时,误触页面上方的辟谣专区,从而页面进入辟谣专 区,导致后续一系列操作出现错误,任务失败。这一问题可能与知乎版面发 生变化有关,与开发插件时的适配页面不一致。
4. 个人信息修改(失败):用户发布任务“编辑个人资料,填写个人简介”。在 实际操作中,尽管 AutoGLM-Web 显示信息已更新成功,但未能进入个人主 页,也未能修改个人信息页面。整个页面实际没有任何操作,任务失败。根 据下图右侧的操作步骤,AutoGLM 试图在界面中根据关键词“个人信息”寻 找点击入口,但未果,因此导致任务失败。
二、微博
在微博网站内,我们进行了多项测试,包括发微博、点赞回复、超话发帖/签到、 置顶微博等。根据测试结果看,AutoGLM-Web 在微博内对任务关键词理解较好, 但依旧有提升空间。
1. 发微博(成功):用户发布任务“发一条‘AutoGLM 真好用!’的微博”。 AutoGLM-Web 成功根据关键词“发一条”发布微博,任务成功。
2. 点赞回复(成功):用户发布任务“给新浪热点最新发布的微博点赞,并写评 论”。AutoGLM-Web 成功根据关键词“最新发布”和“写评论”完成任务。 写评论时,AutoGLM-Web 自动生成符合最新发布微博内容的评论。

3. 超话发帖(成功)/签到(失败):用户在超话界面分别发布任务“在浙江大 学超话签到、并发布帖子 1/67656”和“在浙江大学超话签到”。AutoGLMWeb 首先成功根据关键词“超话”和“浙江大学”找到相关超话,并发布帖 子。然而,在签到时,AutoGLM-Web 无法识别关键词“浙江大学”,进入了 错误超话,任务失败。
4. 置顶微博(成功):用户发布任务“置顶我最近发的一条微博”。AutoGLM-Web 成功根据关键词“置顶”和“最近发的一条微博”完成任务。
三、豆瓣
在豆瓣网站内,我们进行了多项测试,包括撰写评论、提取/总结信息、分享电影、 加入小组、创建豆列,收藏电影等。根据测试结果看,AutoGLM-Web 大部分情 况下可以理解任务关键词并成功执行任务,但涉及跳转至其他网站执行长任务时, 成功率较低。
1. 撰写评论(成功):用户发布任务“帮我去给神奇动物邓布利多之谜打一星再 写个差评”。AutoGLM-Web 成功根据关键词“神奇动物邓布利多之谜”、“打 一星”和“写个差评”完成任务。值得注意的是,如果在要求 AutoGLM-Web 打差评时不注明差评的星数,AutoGLM-Web 则会默认打五星好评,表明 AutoGLM-Web 对于差评和星数之间的关系缺乏理解。
2. 提取/总结信息(成功):用户发布任务“总结神奇动物邓布利多电影的相关信 息”。AutoGLM-Web 成功根据关键词“总结”和“神奇动物邓布利多电影”在 相关电影下进行总结。局限之处在于,AutoGLM-Web 不能对停留的特定页面 做总结,所有操作都会回到网站首页后进行搜索操作后再进行。
3. 分享电影(失败):用户发布任务“分享电影哈利波特与魔法石到新浪微博”。 AutoGLM-Web 根据关键词“分享到”执行相关操作,但并未出现确认分享网 站的弹窗,或表明 AutoGLM-Web 没有进行相关适配。
4. 加入小组(成功):用户发布任务“加入哈利波特小组”。AutoGLM-Web 成功 根据关键词“哈利波特”和“小组”完成任务,代理用户加入哈利波特迷小组。
5. 创建豆列,收藏电影(成功):用户发布任务“创建一个名为‘令人动容的电 影’的豆列并将电影《千与千寻》加入其中”。AutoGLM-Web 成功根据关键词 “创建豆列”、“令人动容的”和“千与千寻”成功完成任务。
四、贴吧
在贴吧网站内,我们进行了多项测试,包括总结/提取、关注/签到、撰写回复等。 根据测试结果看,AutoGLM-Web 大部分情况下可以理解任务关键词并成功执行 任务,但在内容生成上以及页面操作时,成功率不高。
1. 总结/提取(成功):用户发布任务“分析一下剑网三吧内容”。AutoGLM-Web 成功根据关键词“分析”和“剑网三吧”成功完成任务。
2. 关注(成功)/签到(失败):用户发布任务“关注剑网三吧并签到”。AutoGLMWeb 成功根据关键词“关注”和完成关注任务,但无法识别签到按钮,导致签 到任务失败。
3. 撰写回复(可执行但内容不明):用户发布任务“在剑网三吧内最新发布的帖 子下根据内容回复”。AutoGLM-Web 成功根据任务所有关键词并完成任务。 但发布内容未经用户点击确认即发布,且生成内容意义不明,从实操上看存 在较大问题。
3.2 搜索引擎类测评(谷歌、百度、必应)
我们对 AutoGLM-Web 分别在谷歌、百度、必应搜索引擎上进行了测评,均顺利 完成任务。在三个搜索引擎内,用户分别发布相同任务“查找 2023 年美国公开赛 网球冠军得主”,AutoGLM-Web 均根据搜索结果总结答案,顺利完成任务。
我们认为,搜索引擎自身界面操作规范化,步骤较少,有利于 AutoGLM-Web 顺 利执行任务。三个搜索引擎流程执行流程完全一致,AutoGLM-Web 可以精准在 输入框中搜索需要的信息,并选择对应结果和总结信息。
3.3 学术类测评(Arxiv、谷歌学术、百度学术)
一、Arxiv
在谷歌学术网站内,我们进行了多项测试,包括检索、查看文献 pdf、获取论文引 用等。根据测试结果看,AutoGLM-Web 在 Arxiv 中任务均顺利完成。 1. 检索(成功):用户发布任务“获取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的摘要”。AutoGLM-Web 成 功理解任务并顺利执行。

2. 查看文献 pdf(成功):用户发布任务查看取‘Understanding Open Source Contributor Profiles in Popular Machine Learning Libraries’论文的 pdf”。 AutoGLM-Web 成功理解任务并顺利执行。
3. 获取论文引用(成功):用户发布任务“获取‘LSEAttention is All You Need for Time Series Forecasting’论文的 BibTex 引用”。AutoGLM-Web 成功理解任务 并顺利执行。
二、谷歌学术
在谷歌学术网站内,我们进行了多项测试,包括搜索总结、按年份检索文献、获 取引文格式等。根据测试结果看,AutoGLM-Web 对任务关键词提取能力强,但 进行条件筛选时,能力不足。 1. 搜索总结(成功):用户发布任务“浏览 Pierre Baldi 的学术主页并提取他的 主要研究方向”。AutoGLM-Web 成功根据关键词执行并完成任务。
2. 按年份检索文献(失败):用户发布任务“查看 2023 年‘chemical synthesis’ 相关的文献”。AutoGLM-Web 在筛选条件时,没有选择年份,还是选择了相 关性(sort by relevance),导致任务失败。
3. 获取引文格式(成功):用户发布任务“获取论文‘The lottery ticket hypothesis: Finding sparse, trainable neural networks’的 APA 引文格式”。AutoGLM-Web 成功根据关键词执行并完成任务。
三、百度学术
在百度学术网站内,我们进行了多项测试,包括高级检索功能、普通检索、收藏 文献、获取引用等。根据测试结果看,AutoGLM-Web 对任务关键词理解有待加 强。同时 AutoGLM-Web 与网站的适配工作还不够完善,导致执行过程容易失误。
1. 高级检索功能(执行失误):用户发布任务“使用高级检索查找 2014 年至 2018 年间发表于北大核心上的军事法相关论文”。AutoGLM-Web 根据关键词能够 在准确的位置输入年份和选择北大核心刊物,但是最后却没有停留在检索结 果的页面,而是点击进入了检索结果下的第一篇论文,和指令要求产生了偏 差,执行上失误。
2. 普通检索(成功但流程出现问题):用户发布任务“查找 2022 年有关全球气 候变化的文献,列出三篇论文题目”。AutoGLM-Web 在搜索框内输入“2022 年全球气候变化文献”,多出“文献”2 字,表明 AutoGLM-Web 对指令理解 能力不够。

3. 收藏文献(成功):用户发布任务“收藏 2 篇 2022 年以来机器学习在金融风 控中应用的文献”。AutoGLM-Web 成功提取关键词并执行任务。
4. 获取引用(成功):用户发布任务“获取论文‘数字员工的发展进程及在商业 银行的应用研究’的 APA 引文格式”。AutoGLM-Web 成功提取关键词并执行 了任务。然而,值得注意的是,在此次操作中,AutoGLM-Web 并未像在谷歌 学术测评时那样,在右侧交互框中输出 APA 格式的引用信息。这表明 AutoGLM 可能尚未适配百度学术中 APA 引用信息的位置。
3.4 代码托管类测评(GitHub)
我们对 AutoGLM-Web 在 GitHub 上的能力进行了测评。根据测试结果看, AutoGLM-Web 可以做到创建仓库的操作,但要求协作者和搜索下载环节均出现 了错误。AutoGLM-Web 与 GitHub 的适配工作或还不够完善。 1. 搜索并下载项目(失败):用户发布任务“下载一下 GLM-4 仓库”。AutoGLMWeb 没有找到正确的项目,可能与 GitHub 页面布局变化有关。
2. 简易文件管理(部分成功):用户发布任务“帮我创建名为‘Auto’的仓库, 并且邀请 AlbertEinstein-git 加入协作”。AutoGLM-Web 成功为用户创建了名为 “Auto”的仓库,且进入了邀请协作者的界面,但并未成功邀请。
3.5 资讯类测评(网易)
我们对 AutoGLM-Web 在网易上的能力进行了测评。根据测试结果,AutoGLMWeb 在网易新闻主站(news.163.com)的表现十分出色,能够顺利完成搜索和总 结信息的指令。然而,在测试过程中发现,AutoGLM-Web 目前尚未适配网易新 闻旗下的财经新闻(money.163.com)、科技新闻(tech.163.com)等子板块。
3.6 AutoGLM-Web 插件测评总结:简单任务表现出色,未来提升空间 大
任务理解与网站适配仍有较大提升空间。我们认为 AutoGLM-Web 整体上还有较 大的提升空间。首先,其任务理解能力需要进一步加强。其次,测试过程中有时 会出现任务理解正确但无法执行的情况,这可能表明 AutoGLM-Web 与某些网站 的适配还不够完善。此外,网站交互通常包括内容总结、撰写评论等生成式任务, 但在测评过程中,我们发现 AutoGLM-Web 有时会生成与任务不符的内容,这反 映出其在任务理解或 agent 模式下的生成能力还有所欠缺。不过,在执行一些简 单任务,如浏览器搜索等时,AutoGLM-Web 表现出色,基本能够顺利完成任务。
4 测评总结与 Agent 展望:持续强化基座模型,多路 径探索和实践 AI Agent
智谱基座模型竞争力实力强,基准测试表现比肩第一梯队模型。智谱基座模型在 当前的大模型领域表现出了一定的竞争力。根据智谱官方,其 2024 年 8 月发布的 GLM-4-Plus 基座模型在多个任务场景中表现较好。GLM-4-Plus 通过多种方式构 造出了海量高质量数据,并利用 PPO 等多项技术,有效提升了模型推理、指令 遵循等方面的表现,并能够更好地反映人类偏好。模型各项指标上,比肩 GPT4o、Llama3.1 等第一梯队模型。
在模糊语义理解方面,AutoGLM 仍有一定的提升空间。此次智谱 AutoGLM 测评 中,在处理一些含糊或不明确的指令时,模型有时会出现理解偏差或执行错误。 例如,在处理用户指令中的模糊描述时,如时间概念的“上午十点左右”或定性 描述的“最新的款式”,模型的理解和执行能力有待进一步加强。根据下图 SuperCLUEAgent 总榜(2024 年 10-12 月),智谱 GLM-4-9B-Chat 的 agent 能力排 名第三。
APP、网站持续完善适配功能,多路径探索和实践 AI Agent。我们认为,在面对 众多 App 和网站的适配问题时,除了持续完善适配功能以外,未来可行的产业路 径可能包括以下几个方面:
模块化适配框架:开发一个模块化的适配框架,能够根据不同 App 和网站的 通用功能模块(如搜索、导航、购物车等)进行适配。例如,对于出行类 App, 可以开发一套通用的导航、打车、购票等功能模块的适配方案;对于电商平台,可以识别出商品搜索、筛选、加入购物车、结算等通用功能模块,通过 配置文件或参数化的方式,快速适配不同的电商平台。通过识别和适配这些 通用模块,AI Agent 可以在一定程度上实现对多种 App 和网站的快速适配, 而无需对每个应用进行单独的适配开发。
自动化适配工具:利用机器学习和自动化测试技术,开发自动化适配工具。 该工具可以通过学习大量 App 和网站的交互逻辑和界面布局,自动识别和适 配新的应用。这样可以大幅提高适配效率,降低人工适配的成本和时间。
开放平台与合作生态:建立一个开放平台,与开发者合作,共同开发适配插 件或 API 接口。开发者可以根据自己的应用特点,提供适配所需的接口和数 据支持,从而实现快速适配。这样可以利用开发者的专业知识和技术力量, 提高适配的效率和质量。同时,也可以通过合作获取更多的适配数据和反馈, 进一步优化 AI Agent 的适配能力。
用户自定义适配:提供用户自定义适配功能,允许用户根据自己的需求和习 惯,对 AI Agent 的适配行为进行定制。例如,用户可以设置特定的关键词、 操作流程和交互方式等,使 AI Agent 更好地适应自己常用的 App 和网站。这 样可以提高用户的使用体验,同时也为 AI Agent 的适配提供了更多的灵活 性和可能性。 通过以上几种产业路径的探索和实践,AI Agent 可以在 App 和网站适配方面取 得更大的突破,更好地满足用户的需求,推动人机交互方式的创新和发展。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 计算机:通过AI原生,提升驾驶敏捷性和商业价值统一采购平台(英文版).pdf
- 计算机行业:2026全球量子计算产业发展展望.pdf
- 计算机行业OpenClaw:吹响AI Agent时代号角.pdf
- 计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透.pdf
- 计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海.pdf
- 2025当AI接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(英文).pdf
- 浙江大学2025大小模型端云协同赋能人机交互报告.pdf
- 电子行业2025年年度投资策略:AI革新人机交互,智能终端百舸争流,行业迈入估值扩张大年.pdf
- AI应用之人机交互专题报告:AI人机交互,系统,模型与新商业.pdf
- AI手机行业深度报告:受益端侧智能体落地,驱动人机交互新范式.pdf
- Smart Beta投资指南:GARP策略的新范式探索(二).pdf
- 产业观察:利用分层编码进行量子权重缩减,马里兰大学提出量子编码稀疏化新范式.pdf
- 沃什主张:美联储与全球大类资产定价新范式.pdf
- 广发宏观:技术浪潮驱动,产业范式重构,中长期宏观环境展望.pdf
- 广发宏观:增长格局延续,资产范式渐变,2026年海外宏观环境展望.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 华为鲲鹏产业体系研究深度报告:鲲鹏展翅,挥下千亿市场.pdf
- 2 计算机行业研究及2020年投资策略(103页).pdf
- 3 国产计算机基础软硬件行业深度报告:重构中国IT产业生态.pdf
- 4 计算机行业深度分析:国产软件大阅兵.pdf
- 5 国产操作系统产业分析报告:国魂所系,任重道远.pdf
- 6 网络安全服务行业研究报告:网络安全行业的制高点
- 7 计算机操作系统的历史演进和未来趋势.pdf
- 8 计算机行业专题报告:多模态大模型技术演进及研究框架.pdf
- 9 计算机行业2020年度投资策略报告(87页).pdf
- 10 2020年计算机行业中期策略:疫情和中美脱钩对行业意味着什么.pdf
- 1 计算机行业2025年三季报业绩综述:业绩趋势向好,关注AI+与信创主题.pdf
- 2 计算机行业从Circle和Coinbase看稳定币产业链:稳定币+RWA,迈向Finternet的关键.pdf
- 3 计算机行业“智能驾驶”系列专题报告:域控制器研究框架.pdf
- 4 计算机行业专题报告:物理AI,AI技术演进新方向,赋能产业智能化升级.pdf
- 5 计算机行业专题研究:DeepSeek重构算力基建长期价值的认知.pdf
- 6 计算机行业深度研究报告:字节跳动,深度布局AIGC,竞逐新一轮技术浪潮.pdf
- 7 计算机行业分析:国产算力迎来GB200时刻,AI交换网络是核心增量.pdf
- 8 计算机行业深度报告:脑机接口,从概念到落地,开启交互新时代.pdf
- 9 计算机行业深度研究:软件大革命深度,AI Agent投资宝典.pdf
- 10 计算机行业“AI+金融”系列专题研究:行业拐点已至,金融是AI应用落地的绝佳“试验田”.pdf
- 1 计算机行业:NV Rubin新架构&Agent存储最强方向,GPU Native数据库【星环科技】.pdf
- 2 计算机行业AI应用系列:3D打印百花齐放,国产厂商持续突破.pdf
- 3 计算机行业:从智谱华章MiniMax IPO看产业机遇,国内AI产业机遇期来临.pdf
- 4 计算机行业专题研究:千问APP正式接入阿里生态,流量模型AI应用产业格局有望重构.pdf
- 5 计算机行业:SpaceX如何值万亿美元?.pdf
- 6 计算机行业AI编程:重塑软件开发新范式,应用生态加速繁荣.pdf
- 7 计算机行业专题报告:GPU+ASIC渗透加速,液冷市场规模再添增量.pdf
- 8 计算机行业:AI编程商业化加速,关注本土产业参与方.pdf
- 9 计算机行业:SpaceX,从“变革”中崛起的“星际先行者”.pdf
- 10 计算机行业共享出行:迈向高质量发展,Robotaxi开启新篇章.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 最新文档
- 最新精读
- 1 固收+基金2025年Q4季报分析:25Q4绩优固收+基金有什么特征?.pdf
- 2 食品饮料行业扩大内需战略专题研究(一):消费表现与市场定价有哪些潜在预期差?.pdf
- 3 浮息债全景:浮息债的理论定价与现实应用.pdf
- 4 2026年3_5月债券投资策略展望:核心矛盾切换+资产配置平衡延续,降久期防逆风.pdf
- 5 基金经理研究系列报告之九十二:南方基金林乐峰,宏观为锚,质量为核,始于客户需求,打造多元可复制的固收+产品线.pdf
- 6 信用债ETF研究系列一:升贴水率篇,折价幅度越大的信用债ETF更具性价比吗?.pdf
- 7 小核酸行业系列报告(一):小核酸成药之路——Listening to the Sound of Silence,The Road to RNA Therapeutics.pdf
- 8 2026年人形机器人行业投资策略报告:聚焦量产新阶段,把握供应链机遇.pdf
- 9 医药生物行业In vivo CAR疗法:并购与合作持续火热,多条在研管线陆续迎来概念验证数据读出.pdf
- 10 人形机器人行业系列报告五:灵巧手,核心终端,机器人融入物理世界的接口.pdf
- 1 2026年美国主导的科技繁荣本质是债务幻觉
- 2 2026年食品饮料行业深度研究报告:原油大宗上涨的影响及传导机制专题研究
- 3 2026年原油行业分析框架
- 4 2026年永立潮头,东方不败——基于实战检验的A股“抓主线”投资方法论
- 5 2026年电子行业深度:AI引爆供需缺口,光芯片迎黄金机遇
- 6 2026年人形机器人行业系列报告五:灵巧手,核心终端,机器人融入物理世界的接口
- 7 2026年氢能与燃料电池行业:能源安全与双碳目标交汇,氢能开启规模化元年
- 8 2026年固收深度报告:债券“科技板”他山之石,海外科技巨头债券融资路径演变对我国非国有科技企业有何启示?(AI、半导体、新能源)
- 9 2026年餐饮行业:秉承长期主义,格局边际向好
- 10 2026年从资本开支到利润修复:2026年行业景气再判断
