2024年AIAgent专题报告:拐点已至,2B+2C星辰大海

  • 来源:开源证券
  • 发布时间:2024/12/26
  • 浏览次数:689
  • 举报
相关深度报告REPORTS

AIAgent专题报告:拐点已至,2B+2C星辰大海.pdf

AIAgent专题报告:拐点已至,2B+2C星辰大海。2025年有望成为AIAgent商业化应用元年。AIAgent为以大语言模型(LLM)为驱动,具有自主理解、感知、规划、记忆和使用工具的能力,能自动执行复杂任务的系统。不同于传统人工智能,AIAgent具备通过独立思考、调用工具逐步完成给定目标的能力。我们看好AIAgent应用将在2025年多点开花,其中AIAgent有望在B端率先商业化,电商、营销、CRM、金融、法律等场景加速落地。伴随国内外巨头大模型持续迭代,C端或有望迎来杀手级应用。C端:AIAgent初显峥嵘,静待杀手级应用11月,智谱AI发布用AI替代人类执行任务的三款智能体Ag...

1、 2025 年有望成为 AI Agent 商业化应用元年

Agent =大语言模型(LLM)+规划(planning)+记忆(memory)+工具(tools) +行动(Action)。根据曾任 OpenAI 安全研究副总裁翁荔(Lilian Weng)的博文,在 大语言模型(LLM)驱动的 Agent 系统中,LLM 充当 Agent 的大脑,并由 Planning (规划)、Memory(记忆)、Tools(工具)、Action(动作)等几个关键组件补充。 规划(Planning):子目标和分解,Agent 通过将大型任务分解为更小的、可管理 的子目标,从而实现复杂任务的高效处理;反思与改进,Agent 可以对过去的行动进 行自我批评和自我反思,从错误中学习并改进未来的步骤,从而提高最终结果的质 量。 记忆(Memory):短期记忆,将所有的上下文学习看成是利用模型的短期记忆 来学习;长期记忆,为 Agent 提供了长期存储和召回信息的能力,通常通过利用外 部的向量存储和快速检索实现。 工具(Tools):Agent 通过学会调用外部 API 来获取模型权重(通常在预训练后 很难修改)中缺少的额外信息,包括当前信息、代码执行能力、对专有信息源的访 问等。 行动(Action):根据上述大模型结合问句(Query)、上下文的规划(Context)、 各类工具,最终大模型才能决策出最终需要执行的动作是什么。

AI Agent 是通往 AGI 的必由之路。从 NLP 到 AGI 的发展分为五个级别,语料 库、互联网、感知、具身和社会属性。目前的大语言模型(LLM)已经来到第二层 级,具有互联网规模的文本输入和输出。AI Agent 在 LLM 的基础上再具备感知与行 动的能力时,将进入到第三和第四级别。再进一步,当多个 Agent 通过互动合作解 决更复杂的任务,或者反映出现实世界的社会行为,则有潜力来到第五层级。

Agent 将显著提升大模型使用工具能力。根据智谱定义的大模型发展的五个阶 段:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、L4 自我学习 能力、L5 探究科学规律。目前大模型已经初步具备了人类与现实物理世界互动的部 分能力,而 Agent 将显著提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探 索。

Agent 为 AI 未来重点技术趋势,B 端为重要落地场景。根据硅谷著名创业加速 器 Y Combinator 的数据,2023 夏季和 2024 冬季 2 季创业营的 AI 项目中,Agent 已 成为最主要的技术路线之一,占比高达 80%,其余为多模态、基础设施、RAG 等。 其中,B 端应用项目数量远高于 C 端应用,包括软件开发、金融、电商、CRM、医 疗等。

AI Agent 场景特性:B 端强调专业性,C 端强调自由度。在 B 端应用中,AI Agent 强调专业性,被广泛应用于金融、医疗、法律、财务、生产、物流、资管、人力等 专业性极强的领域,往往需要专岗专职人员进行多年学习完成。在 C 端应用中,AI Agent 强调自由度,应用于游戏、娱乐、影视、营销、广告、教育等需要更多灵感及 创意的领域。

生成式 AI 在金融领域应用广泛。根据 Gartner 调查数据,66%的银行领导人预 计生成式 AI 的潜在收益大于潜在风险,61%的银行高管表示所在公司正在或计划未 来增加对人工智能的投资。例如为用户提供财务建议的 AI 理财教练,在增收方面至 少可以提升 30%,提高效率方面能够显著减少公司为客户创建新内容所花费的时间。

AI 智能体在金融领域降本增效前景广阔。智能体的优势在于能够自动执行日常 任务,从而释放人们的创造力,提高工作效率和生产力。Gartner 列出的生成式 AI 在银行业 20 个最有前景的应用案例中,多个场景涉及 AIAgent,如综合信贷数据、 AI-Copilot 前线应用、个性化营销内容等,利用生成式 AI 技术构建的数字员工,能 够显著增强银行业务处理能力、优化客户体验并降低风险。

AI Agent 赋能医疗服务诊前、诊中和诊后众多环节。政策、技术共振驱动下, AI 赋能医疗服务诸多场景。2024 年 11 月 14 日,国家卫健委、国家中医药局、国家 疾控局联合发布《卫生健康行业人工智能应用场景参考指引》,提出人工智能+医疗 服务管理、人工智能+基层公卫服务、人工智能+健康产业发展、人工智能+医学教学 科研四个类别,共计 84 个细分应用场景,积极推进卫生健康行业“人工智能+”应 用创新发展。

AI Agent 助力医疗服务提质增效。AI Agent 在医疗领域的应用前景广泛,涵盖 从日常辅助、影像分析、病历管理到手术支持、慢病管理等多场景,为医护人员减 负、提升诊断精准度并优化患者体验提供智能支持。根据美国国家经济研究局 2023 年报告数据,更多地采用人工智能可以节省 5%-10% 美国医疗保健支出。

法律行业有望成为 AI Agent 重要落地应用。法律行业的数据以文本为主,并且 多为绝对事实和真实案件,较为适合大模型学习。此外,法律工作的强知识性和逻 辑性也让大模型能够在更多法律工作流环节中提供价值。根据 ALM 就美国前 100 律所使用 AI 情况的问卷调查,其中有 41 家律所承认正在使用 AI,包括法律材料起 草、文档汇总、法律研究等场景。Jackson Lewis 等一些律所,还会定期为律师举办 人工智能培训课程。

Harvey AI 用户使用率快速增长,彰显法律领域对 AI Agent 产品的旺盛需求。 以Open AI投资的AI+法律初创公司Harvey AI为例,2023年8 月-2024年8 月,Harvey AI 用户使用率从 33%大幅增长至 69%,用户留存率在一年后保持在 70%左右,彰显 法律领域对 AI Agent 产品的旺盛需求和用户对产品的较高满意度。

2、 C 端:AI Agent 初显峥嵘,静待杀手级应用

2.1、 智谱:AutoGLM 快速迭代,Agent 覆盖手机、PC、网页端

智谱推出 AI Agent 智能体 AutoGLM,可代替用户在手机和网页上完成操作。 10 月 25 日,智谱推出 GLM 第一个产品化的智能体(Agent)——AutoGLM。只需 接收简单的文字/语音指令,AutoGLM 就可以模拟人类操作手机,如在微信点赞并评 论朋友圈、在淘宝购买某一款历史订单产品、在携程预订酒店、在 12306 购买火车 票、在美团点外卖等。

另外,AutoGLM 也可以对网页进行操作,如在 OpenTable 网站预订餐厅等。

AutoGLM 测评表现优异。智谱团队在 AndroidLab(即 VAB-Mobile)和常见的 安卓 APP 上的高频任务中评估了 AutoGLM 的能力。AndroidLab 的评估结果表明, AutoGLM 在 AndroidLab 上的成功率为 36.2%,在所有对比的智能体中表现最佳。

为进一步测试 AutoGLM 在公共用户环境中的实际部署能力,智谱团队还在 7 款常见的安卓 APP(包括微信、美团、淘宝、大众点评、高德地图、小红书和 12306) 上仔细评估了其高频任务表现。结果显示,AutoGLM 在这些应用中的表现令人满意, 多数任务能够完成,未完成的任务也能部分完成,从而在实际场景中为用户提供操 作速度上的帮助。

网页端:智谱 AUTOGLM 在 VAB-WebArena-Lite 测评和真实网站表现优于其 他大模型。智谱使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行 了交互式基准测试,在这些环境中优化训练 AutoGLM。 智谱 AUTOGLM 在 VAB-WebArena-Lite 测评表现优于其他大模型。使用 VAB-WebArena-Lite 评估了代表性的专有 LLM/LMM API、开放模型、最近的智能 体框架以及 AutoGLM。实验结果显示,AutoGLM 在该基准测试上显著提升了表现, 缩小了 AI Agent 与人类之间的性能差距。

智谱也在真实网站 OpenTable 上对 AutoGLM 进行了测试。智谱团队参考 AgentQ 论文中 “为 4 人预订 2024 年 5 月 22 日晚上 7 点在 Cecconi's 的餐厅座位”的示例, 重新构建了一个包含 200 个样本的测试集,结果显示,AutoGLM 在此真实世界场景 中超越了 GPT-4o 和 Agent Q。

智谱 AI 全新发布 Agent 家族,涵盖手机、电脑、PC。11 月 29 日,智谱 AI 在 其 OpenDay 上发布了用 AI 替代人类执行任务的三款智能体 Agent,分别是面向手机 的 phone use——AutoGLM,面向电脑的 compute use——GLM PC,以及面向网页的 GLM-Web 能力。 升级版 AutoGLM 具备跨 App 能力,模型功能及便携性显著提升。升级版 AutoGLM 较 11 月版本,支持更多主流 APP,如抖音、微博、饿了么、京东、拼多 多等,且实现跨 APP 操作,为用户在多 APP 交互场景中提供便利,例如可在美团 和饿了么比价、在小红书搜攻略后去携程订酒店等。推出快捷口令功能,预设常用 指令短语,提升交互便捷性。 AutoGLM 宣布启动大规模百万内测,并将尽快上线成为面向 C 端用户的产品, 同时启动“10 个亿级 APP 免费 Auto 升级”的计划,邀请 App 伙伴联合探索自己 的 Auto 新场景。

AutoGLM-Web 开启 Web 端全自动上网能力。AutoGLM-Web 为基于 AutoGLM 技术的电脑浏览器版本,支持知乎、Github、芒果 TV、百度搜索、微博等数十个网 站的无人驾驶, 并与手机版类似具有支持跨 APP 操作能力。例如在现场 demo 里,清 言插件自动完成了“在百度搜索芒果 tv,打开小巷人家,播放最新一集,发弹幕结 局打卡”。 GLM-PC :PC 端自主 Agent,未来前景可期。GLM-PC 基于智谱的多模态模 型 CogAgent,能够模拟人用电脑的过程,具备系统级、跨平台的操作能力,不依赖 于 HTML、API,具备更高的能力上限。例如会议替身,帮用户预定和参与会议,发送会议总结;文档处理,支持文档下载、文档发送、理解和总结文档;网页搜索 与总结,在指定平台(如微信公众号、知乎、小红书等)搜索指定关键词,完成阅 读、总结;远程和定时操作,远程手机发指令 GLM-PC 自主完成电脑操作,设定一 个未来时间在开机状态下定时执行任务;隐形屏幕,在用户工作时,GLM-PC 可以 在隐形屏幕上自主完成工作,解放屏幕使用权。

2.2、 Anthropic:Claude 3.5 Sonnet 重磅升级,具备电脑使用能力

Anthropic 发布升级版 Claude 3.5 Sonnet,推理能力大幅升级。2024 年 10 月, 亚马逊参股的 Anthropic 发布升级版 Claude 3.5 Sonnet 以及全新的 Claude 3.5 Haiku 模型。 根据基准测试结果,升级版的 Claude 3.5 Sonnet 各方面能力显著提升,在研究 生水平推理能力 GPQA、一般推理能力 MMLU、编程能力等方面表现优于 GPT-4o 和 Gemini 1.5,并弥补了在数学能力方面较 GPT-4o 的不足。

升级版 Claude 3.5 Sonnet,具备计算机使用能力(computer use),开发者可以 指导 Claude 3.5 Sonnet 像人类一样使用电脑,如查看屏幕、移动鼠标、点击按钮、 输入文字等。

升级版 Claude 3.5 Sonnet 在 OSWorld 测试中电脑使用能力表现较人类水平仍 有提升空间,但得分为 AI 模型中首位。在 OSWorld 测试中(一项评估 AI 模型电脑 使用能力的测试),升级版 Claude 3.5 Sonnet 在仅基于屏幕截图的任务类别中得分为 14.9%,明显超越了排名第二 AI 模型 7.8%的得分。当允许更多操作步骤来完成任务 时,升级版 Claude 3.5 Sonnet 得分提高到 22.0%,意味着模型与环境的多次交互,能 够优化任务性能。

升级版 Claude 3.5 Sonnet 在零售和航空领域的 TAU-bench 测试得分显著提升。 根据代理工具使用测试(TAU-bench)结果,以零售和航空领域为例,升级版 Claude 3.5 Sonnet 得分均有显著提升,在零售领域的准确率从 62.6%提升到 69.2%,在航空 领域的准确率从 36%到 46%,为后续应用深化夯实模型能力基础。

3、 B 端:巨头加码布局,AI Agent 商业化加速

3.1、 微软:Copilot Studio 支持定制 Agent,宣布建立全球最大的企业级 AI Agent 生态

微软推出全新自主智能体功能国际版,助力客户降本增效。2024 年 10 月,微 软宣布为 Dynamics 365 国际版引入十个新的自主智能体,以增强销售、服务、财务 和供应链团队的能力。智能体可以利用 Microsoft 365 Graph、记录系统、Dataverse 和 Fabric 中的工作数据上下文,支持从 IT 服务台到员工入职的所有工作,并充当销 售和服务人员的私人管家。 自主智能体助力客户提升营收、降低成本。根据微软公布的案例数据,Agent 降本增效效果显著。如英国领先的宠物护理企业 Pets at Home3 为其利润保护团队创 建了一个智能体,以便更高效地汇总案例供专业人员审查,每年预计可节省费用达 七位数。麦肯锡咨询公司正在开发一种加速客户引入流程的智能体,项目试点结果 显示,该智能体可节省 90%的筹备时间和 30%的行政工作。汤森路透打造了一个专 业级智能体,用于加快法律尽职调查工作流程,初步测试结果显示,部分任务可用 过去一半的时间完成。该智能体可帮助汤森路透提高客户工作效率,并为新业务管 线添砖加瓦。

微软 Copilot Studio 推出新功能:支持定制 Agent,赋能用户构建自主智能体。 微软的 Copilot Studio 平台目前已支持用户创建自主 Agent,并正式进入预览阶段。 同时,微软还发布了 5 款预构建 AI Agent,包括:SharePoint 自定义个性化 Agent、 员工自助服务 Agent 处理 HR 和 IT 任务、Facilitator Agent 自动记录会议笔记、 Interpreter Agent 提供 9 种多语言实时翻译,以及 Project Manager Agent 帮助自动化 项目管理流程。

微软宣布已建立全球规模最大的企业级 AI Agent 生态系统。在微软 Ignite 2024 技术大会上,微软宣布已建立全球规模最大的企业级 AI Agent 生态系统。企业用户 现在可以通过 Azure AI 目录访问超过 1800 个 AI 模型,用于支持各类 AI Agent 的部 署和运行。已有超过 10 万家公司利用 Copilot Studio 创建或编辑 AI 智能体。比如, 麦肯锡通过自动化的流程分配智能体,将项目受理流程从 20 天缩短至仅 2 天;Pets at Home 在不到两周内部署了防欺诈智能体,每年节省数百万美元等。微软智能体负责 人 Charles Lamanna 表示,仅一个季度就实现了 2 倍的增长,该增长速度远超预期, 也远超发布的其他任何前沿技术的表现。

3.2、 谷歌:推出 AIAgent Space,产品扩容可期

谷歌云推出人工智能代理合作伙伴计划,希望将人工智能代理的销售和客户采 用率提升到新的高度,通过新的技术和市场资源帮助合作伙伴建立并共同创新人工 智能代理。谷歌云已推出 AI Agent Space,目前提供 19 款解决方案。同时谷歌云全 球渠道主管 Kevin Ichhpurani 表示,谷歌计划在未来几个月内增加“数百个人工智能 代理”产品。

此前 2024 年 9 月,Google 发布博客展示了 185 个 AI 智能体和生成式 AI 解决方 案案例,AI 智能体正在客户服务、员工赋能、代码开发、数据分析、网络安全以及 创意构思和制作等六个关键领域落地。

3.3、 Salesforce:Agentforce 商业化进展积极,人员扩张彰显信心

Salesforce推出Agentforce。Salesforce在2024 Dreamforce推出Agentforce平台, 支持企业构建并管理自动化代理人,涵盖销售、服务、营销等各个业务领域。根据 Salesforce 创始人兼 CEO Marc Benioff,仅 Dreamforce 大会期间,用户便创建了超过 1 万个 Agent,而在随后的全球巡回活动中,这一数字还在不断攀升。Salesforce 总 裁兼 COO Brian Millham 表示,愿景未来一年为客户提供 10 亿个 AI Agent。

Atlas为Agentforce的“大脑”。Atlas通过分析业务流程,比如Salesforce的Flow, 确定如何与客户或员工互动,并根据不同的渠道偏好做出相应调整。Atlas 的强大功 能建立在数据云(Data Cloud)的基础上,AI 的质量与数据的准确性息息相关,Atlas 确保了企业数据得以充分利用。

Salesforce Agentforce 助力客户提升 ROI。Agent 能够自动处理客户服务请求等, 从而大幅减少人工成本。以 Wiley 为例,Agentforce 将自助服务效率较以前的聊天机 器人提升超 40%,同时通过服务云实施实现了 213%的投资回报率。

Agentforce 商业化进展积极,人员扩招彰显信心。Agentforce 已面向服务和销售 全面推出,起价为每对话 2 美元。根据 FY2025Q3 业绩会,第三季度,通过 AI 获得 的 100 万美元以上的订单数量同比增长了两倍多,签署了 2000 多份 AI 合同,其中 包括 200 多份 Agentforce 订单。为满足 Agentforce 日益增长的需求,公司将在第四 季度在全球范围内招聘 1400 名 AE,并将使用全新 SDR Agent 和销售指导 Agent 来 增强销售人员能力。同时公司宣布将于 12 月 17 日发布 Agentforce 2.0 版本。

3.4、 ServiceNow:Now Assist 高增长,Xanadu 赋能值得期待

ServiceNow 推出 Now Assist AI 平台,助力公司业绩快速扩张。ServiceNow 已 经成为业务转型的人工智能平台,向人工智能的转型成效显著。根据 ServiceNow 三 季度业绩电话会,借助 Now Assist,有 44 个客户的 ACV(年度合约价值)超过百万 美元,其中 6 个超过 500 万美元,2 个超过 1000 万美元。这仍然是公司有史以来增 长最快的产品,也是公司跨企业扩张的催化剂。

ServiceNow 推出 Xanadu,赋能 Now Assist AI 平台。在第三季度,公司发布了 迄今为止最大的生成式 AI 版本 Xanadu,包括 350 多项全新创新。通过分析生成能 力、定制开发能力、Microsoft Copilot 集成等方面的改善,Xanadu 进一步增强 Now Assist 平台能力。

3.5、 AppLovin:AI 驱动业绩高增,AI+营销前景光明

AppLovin 提供完整的营销软件解决方案,包括软件平台(Software Platform) 和应用程序(Apps)。其中公司软件平台(Software Platform)为主要收入来源,涵 盖 AppDiscovery、MAX、Adjust、Wurl 等核心产品,形成了完整的广告营销生态商 业闭环。

AI 广告引擎 AXON 2.0 驱动 AppLovin 收入及利润持续快速增长。AI 广告引擎 AXON 2.0 通过数据训练能够自我学习并改进自身的广告推荐算法,提高广告投放精 准度和效率。AXON 2.0 自推出以来商业化成效显著,驱动软件平台业务收入逐季度 环比增长,同时盈利能力显著改善,2024 年第三季度,公司软件平台业务实现 8.35 亿美元收入和 6.53 亿美元的调整后 EBITDA,利润率高达 78%。

3.6、 Shopify:电商为 AI Agent 重要落地场景

Shopify 将人工智能工具 Shopify Magic 集成在旗下产品和工作流,有效拉动产 品销售。Shopify Magic 将 Shopify 的所有功能与人工智能技术的最新改进结合在一 起,以针对商店开发、营销、客户支持和后台管理等一系列任务提供个性化且符合 情境的相关支持,如可以通过自动文本生成来帮助商家提升撰写效率,包括产品描 述、电子邮件主题行、在线商店标题和常见问题解答等,可简化客户业务的启动、 运营和拓展过程,从而有望带动 Shopify 产品销售。 以 Shopify Inbox 为例,该产品使用人工智能根据每个商家独特信息提供建议, 使商家能够快速准确地回复客户查询。根据公司 2024 三季度电话会,目前商家回复 已有一半来自 AI 建议。AI 回复可以迅速提高转化率,从而提升商家销售额,并最 终带动商家采购 Shopify 产品。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至