AI Agent产业趋势加速。
1.AI Agent自主性、交互性凸显,打破大模型应用边界
AI Agent(人工智能代理),指能够感知环境、进行自主理解、决策和执行动作的智能体。OpenAI将AI Agent定义为“以 大语言模型为大脑驱动,具备自主理解、感知、规划、记忆和使用工具的能力,可自动化执行完成复杂任务的系统。”
AI Agent打破大模型应用边界。AI Agent已跨入基于大型语言模型的智能体阶段,具备自主性、适应性、交互性、智能性四 大特点。 LLM是AI Agent实现的基础和前提,LLM带来了深度学习新范式,思维链和强大的自然语言理解能力有望让Agent具备强大的学习能力和迁移能力,从而让创建广泛应用且实用的Agent成为可能。而AI Agent的引入,则能够赋予大模型多轮 对话管理、主动询问与澄清、策略性决策的能力,我们认为,AI Agent有望增强大模型的深入思考,突破语言模型的边界。
2.AI Agent应用广泛,商用爆发时点渐行渐近
AI Agent可应用于B端和C端,其中B端强调专业性,Agent多应用于金融、医疗、法律、财务、生产物流、资管、人力等 专业性强的领域;C端强调自由度,Agent多应用于游戏、娱乐、影视、营销、广告、教育等需要更多灵感及创意的领域。

全球巨头加码AI Agent,商业化节点渐行渐近。谷歌发布321个全球顶级企业的AI应用实战案例,涵盖零售巨头沃尔玛、医 疗巨头 Mayo Clinic,金融巨头花旗等公司的Agent落地案例。根据乌鸦君统计,在Agent六大落地核心场景中,雇员代理的 应用最为普遍,在医疗健康(17个)、金融服务(16个)、科技(15个)领域都有广泛应用。从落地行业来看,科技行业 应用Agent最为广泛,零售和消费品、医疗健康、金融服务行业也落地较多。
3.AI Agent市场空间广阔
AI Agent处于快速发展阶段,市场发展潜力大。根据Markets and Markets预测,全球AI Agent市场将从2024年的51亿美元 增长到2030年的471亿美元,年复合增长率达44.8%。根据Gartner预测,到2028年,至少15%的日常工作决策将通过AIAgent自主完成(2024年为0%)。黄仁勋在2025年美国消费电子展上表示,AI智能体可能是下一个机器人行业,很可能是 一个价值数万亿美元的机会。
中国AI Agent市场持续增长。2023年,AI Agent被业内正式引入,开始兴起。在To B端,AI Agent将逐渐把SaaS应用全面 进行改写重构;在To C端,AI Agent作为生成式AI的商业化应用。根据头豹研究院,2023年中国AI Agent市场规模为554亿 元,预计2028年中国AI Agent市场规模将达到8520亿元, 2023-2028年均复合增长率达72.7%。
4.B端:科技巨头持续加码,AI Agent商业化加速
微软:公布世界最大AI Agent生态系统。2024年10月,微软发布10个Agent,覆盖销售、服务、财务、供应链等方面工作 。2024年11月,在微软Ignite大会上,微软公布了世界最大AI Agent生态系统,并宣布企业用户可以通过Azure AI目录访问 超过1800个AI模型,用于支持各类AI Agent的部署和运行,此外,微软还发布了5款预构建AI Agent。2025年1月,微软发 布全新企业级AI助手Microsoft 365 Copilot Chat,可直接调用企业自有数据,执行端到端的超复杂自动化业务流程。 Copilot Studio平台加速智能体创建进程。自推出以来,已经有超过10万家公司使用Copilot Studio创建了自己的AI智能体 。比如,麦肯锡通过自动化的流程分配智能体,将项目受理流程从20天缩短至仅2天;Pets at Home在不到两周内部署了 防欺诈智能体,每年节省数百万美元。
谷歌:上线AI Agent Space一站式商用生态。2024年11月,谷歌云宣布将提供从AI Agent的开发、部署到应用一站式商 用生态。其中,谷歌发布了全球为数不多的商用AI Agent 市场(Space),类似苹果的Store。面向企业用户,用户可以在 AI Agent市场中快速找到想要的AI Agent,极大简化了客户的选择和部署流程。同时,还提供了免费试用的机会。开发者 则能通过用户的购买来赚取佣金。对于AI Agent的商业发展具有里程碑意义。 Gemini 2.0亮相,专为AI Agent打造。2024年12月,谷歌发布新一代大模型Gemini 2.0,官方将其定位为面向智能体时代 的AI模型。根据谷歌发布的基准测试结果,在多模态的图片、视频、编码、数学等能力上,仅Gemini 2.0 Flash实验版表现 就已几乎全面超越Gemini 1.5 Pro 002,且速度是1.5 Pro的两倍。谷歌表示,2025年初会将Gemini 2.0扩展到更多旗下产 品中,比如Project Astra。 此外,谷歌发布了一系列智能体。发布Project Astra升级版,能够流畅地在多种语言和混合语言之间进行对话,并且能够 理解不同口音和生僻单词,借助 Gemini 2.0,Project Astra 可以使用 Google Search、Google Lens 和 Google Maps,从 而在日常生活中发挥助手的作用;发布完成复杂任务的智能体 Project Mariner,可从浏览器开始探索人机交互,能够理解 和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过Chrome 扩展程序使用这些信息 为用户完成任务;发布编码智能体Jules、以及游戏和其他领域的智能体。
Salesforce:发布Agentforce。在2024年9月的Dreamforce大会上,Salesforce全新发布Agentforce平台,企业可以创建 销售代理、服务代理、营销代理等,完成多种日常任务。2024年12月,Salesforce发布了Agentforce 2.0。2.0核心的改进 在于推理引擎的增强,该引擎旨在连接企业数据、业务流程和逻辑,从而提供更智能、更具上下文感知能力的AI交互体验 。据董事长Benioff透露,客户在help.salesforce.com平台上每周32000次交互中,人工互动比例已从前的10000次降至 5000次,83%的问题由AI代理解决。 AgentForce商业化进展积极,推动业绩强劲增长。Salesforce为AgentForce引入基于使用量的定价模式,每次对话2美元 。根据FY2025Q3业绩会,通过Agentforce和AI解决方案取得的客户成功推动了强劲的业绩。在第三季度,通过AI获得的 100万美元以上订单数量同比增长两倍多,签署了2000多份AI交易,其中包括200多份Agentforce订单。而当考虑 AgentForce面临的机遇时,这200笔交易只是冰山一角。

国内:大厂纷纷入局,抢跑智能体市场。B端,百度文心智能体平台、腾讯元器、讯飞星火智能体创作中心、通义智能体 、字节扣子等面向企业用户提供智能体创建平台,并开始在其AI智能助手界面中添加AI Agent入口。除这些大厂外,包括 智谱AI、面壁智能等大模型创业公司,容联云、思迈特等SaaS公司,钉钉、飞书等协同办公赛道企业等,都在加码智能体 开发和应用落地。
5.C端:国内外Agent惊艳涌现
OpenAI:发布首款AI代理Operator。1月24日,OpenAI直播发布首款AI代理工具Operator,能够代理用户执行基于网页 的操作,替用户完成预订机票、预订晚餐、编写网站代码等几乎所有联网任务。Operator由一个名为CUA(计算机使用代 理)的新模型驱动,结合了GPT-4o的视觉能力,以及通过强化学习实现的高级推理。Operator能够“看见”网页(截图) ,并使用鼠标和键盘允许的所有操作与网页进行互动。在操作中如果碰到困难,模型会调用推理能力进行自我纠正,若依 然无法解决问题则会把控制权交还给人类。
发布可高效输出专业报告的Deep Research。2月3日,OpenAI发布Deep Research(深度研究),是一个用o3模型造出 的联网版推理Agent。Deep Research走专业路线,能搜索、解释和分析网络上的大量文本、图像、PDF,在极短时间内旁 征博引,然后生成非常专业的综合分析报告,还附有搜索过程和索引。
智谱发布三款AI Agent,覆盖手机、电脑、网页端。2024年11月29日,智谱发布面向手机的phone use——AutoGLM, 面向电脑的compute use——GLM PC,以及面向网页的GLM-Web能力。2024年10月25日,智谱就发布了AI手机端的 AutoGLM。新升级的AutoGLM实现了一系列进步:在手机上具备了更多的能力,可以挑战更高难度的操作、支持更长的流 程,甚至毫无打断地执行超过50步的操作;可以实现跨APP操作;具备短口令能力。GLM-PC则是能够操作电脑的生产力 助手,具有发送信息、网页总结、文档处理、预定和参加会议、远程和定时操作等能力。 GLM-PC全新升级。1月23日,智谱发布基于智谱多模态大模型 CogAgent的GLM-PC,是全球首个面向公众、回车即用的 电脑智能体,能像人类一样「观察」和「操作」计算机,协助用户高效完成各类电脑任务。截至目前,智谱已经有了手机 智能体AutoGLM和电脑智能体GLM-PC两大系统,分别覆盖了移动设备和桌面端,实现了工具使用能力的深度突破。
Anthropic:Claude 3.5模型更新,新增Computer use功能。10月22日,Anthropic发布了Claude 3.5模型家族的更新, 同时宣布升级版Claude 3.5 Sonnet获得Computer use功能(计算机使用能力),具体来说,Claude能够通过观看屏幕截 图,实现移动光标、点击按钮、使用虚拟键盘输入文本等操作,真正模拟人类与计算机交互的方式。在多个演示视频中可 以看到,Claude能够丝滑地操作电脑执行打开软件、网页搜索、文本输入、编写代码、下载文件、debug、查找网页表格 并填入信息等任务,甚至还能打开外卖平台订餐。