AI Agent海内外厂商进程如何?

AI Agent海内外厂商进程如何?

最佳答案 匿名用户编辑于2025/06/16 09:09

中国互联网大厂加快AI Agent平台建设,逐步探索于办公、电商、客服等业务 主场景。

1.AI Agent 海外厂商进程——OpenAI 最新动态

1月24日,OpenAI发布智能体Operator,是研究预览(research preview)版本的智能体。Operator 由一个名为“计算机使用代理”( Computer-Using Agent,CUA)的新模型提供支持。CUA 将 GPT-4o 的视觉功能与通过强化学习获得的高级推理相结合,经过训练可以 与图形用户界面 (GUI,即人们在屏幕上看到的按钮、菜单和文本字段)进行交互。Operator 可以“查看”(通过屏幕截图)和“交互” (使用鼠标和键盘允许的所有操作)浏览器,从而使其无需自定义 API 集成即可在 Web 上采取行动。同时,如果遇到挑战或犯错, Operator 可以利用其推理能力进行自我纠正。

3月12日,OpenAI发布Agents SDK,能够帮助开发者更容易创建能自动完成任务的AI Agents,核心组件包括Runner、Handoffs、 Guardrails和Model,这些组件协同工作以创建AI Agents。应用场景包括:1)企业快速构建和部署智能客服系统;2)科研领域自动化多步 骤研究过程,包括文献检索、数据分析和结果可视化等工作;3)内容生成:创作者可以快速生成高质量文本、图像和视频等内容,用于博 客、社交媒体、广告等多种渠道。

OpenAI Operator技术原理

Operator核心是基于“ CUA (Computer-Using Agent)”新型模型的网络自动化,结合GPT-4o 的视觉能力和通过强化学习获得的先进推 理能力,经过专门训练能够与图形用户界面GUI(即用户在屏幕上看到的按钮、菜单和文本框等元素)进行交互;通过“观察”(屏幕截图) 和“交互”(使用鼠标和键盘的所有操作)与浏览器进行通信,能够像人类用户一样操作浏览器,完成各种在线任务;

CUA关键步骤:1)视觉感知:通过截取网页的屏幕截图来“观察”网页的内容和布局,凭借 GPT-4o 多模态视觉能力,CUA 能够精确识别 网页上的各种元素,例如按钮、文本框、图片、链接等交互组件;2)任务理解:利用 GPT-4o 的自然语言理解能力,将这些指令转化为计算 机可以执行的操作序列;3)操作执行:基于任务指令,通过模拟人类用户的操作来完成具体任务,包括“移动”鼠标、点击按钮、拖动滑块 、输入文本等;4)环境反馈:观察网页发生的变化,例如页面跳转、新内容加载、文本框自动填充,将其作为动态输入,调整后续的行动计 划;5)推理与自纠正:在任务执行过程中遇到挑战或犯了错误会触发推理能力,通过对当前情境的综合分析进行自我纠正;6)人机协作: 在某些特殊情况下,例如遇到复杂验证码或极具歧义性的指令时,CUA 会主动将控制权交还给用户。

Microsoft最新动态

1月16日,微软发布全新企业级助手Microsoft 365 Copilot Chat,除了支持传统的文本生成、文本分析(PDF、Word等)、图像生成之外, 还支持AI Agent功能,集成在Microsoft 365商业版中,可直接调用企业自有数据,执行端到端的超复杂自动化业务流程。AI Agent功能:用 户可以直接在Copilot Chat的聊天中,通过自然语言创建Agent,用于执行自动化重复、枯燥、复杂的业务流程。例如在供应链管理中, Copilot Chat能够实时监控库存水平,根据销售数据和市场趋势预测需求,自动生成采购订单并协调物流配送,提升整个供应链工作效率;企 业服务中,客户服务代表可在会议前通过CRM Agent查询账户详细信息,现场服务人员可访问 SharePoint 中存储的分步说明和实时产品知识 等;提供聊天功能,使用方法与ChatGPT一样,可用于市场调研、撰写发展战略报告或准备会议资料等。

3月24日,微软推出MCP Server Playwright,Playwright是微软开源的自动化测试工具核心优势在于:1)跨浏览器支持,原生兼容 Chromium(Chrome/Edge)、Firefox、WebKit(Safari),无需手动安装驱动;2)高效稳定,具备自动等待机制及智能选择器;3)多场景 覆盖,支持文件上传下载、跨域操作、移动端模拟等复杂需求。

5月8日,微软在宣布Azure AI Foundry和Microsoft Copilot Studio两大开发平台,支持最新的Agent开发协议A2A,微软表示未来会与谷歌合 作一起开发扩大A2A协议。

Microsoft 365 Copilot

Copilot主要功能及应用场景: 1)与每天使用的 Microsoft 365 生产力应用配对,例如Word、Excel、PowerPoint、Outlook、Teams 等; 2)使用 Microsoft Graph 中的内容通过用户的工作电子邮件、聊天和文档个性化响应, Copilot 仅显示用户有权访问的数据; 3)文档创建、数据分析、项目管理、通信; 4)生成代理:通过集成第三方系统和数据源扩展 Copilot 的知识;跨 Microsoft 365 和外部应用程序自动执行复杂的多步骤工作流;定制用 户体,按照不同功能类型可分为声明性代理和自定义引擎代理; 例如:Copilot销售代理可以通过在Dynamics或Salesforce中将联系人转换为销售线索、设置会议以及与客户联系来自执行潜在顾客管理, 同时安全地访问Microsoft 365 和企业数据,以个性化交互并推动业务成果。

Google MCP及AI Agent最新动态

4月4日,Gemini更新API文档,正式宣布接入MCP,可直接将MCP服务器与Gemini模型搭配使用; 4月10日,在谷歌云Next大会上Google正式发布Agent2Agent(A2A)开放协议,A2A协议使AI Agent之间的沟通与协作更为顺畅,本质上 与MCP协议属于互补关系。A2A协议界定了AI Agent间沟通的固定方式,允许AI Agent相互发送消息,帮助其跨越孤立的数据系统和应用此 程序并完成协作,进一步提升AI Agent自主性并大幅提高生产力,长期来看能够降低多智能体系统的使用成本; 5月15日,Google DeepMind公布了编程AI Agent “AlphaEvolve”,可以用于通用算法发现和优化,目前已将AlphaEvolve发现的算法部 署到谷歌的计算生态系统中,包括数据中心、硬件和软件。AlphaEvolve同时部署Gemini Flash(提升速度)和Gemini Pro(提升深度), 对现有代码提出修改建议,打造可以超越单个函数发现、进化整个代码库并开发更复杂算法的Agent。AlphaEvolve提高了谷歌数据中心的效 率,其算法应用于谷歌大规模集群管理系统Borg,可持续恢复谷歌全球计算资源的0.7%:使Gemini运算速度提升23%,整体训练时间缩短 1%。

2.AI Agent 国内厂商进程

阿里Qwen-Agent

Qwen Agent 的目标是让大模型从“对话工具”进化为“任务执行助手”,在电商、办公、客服、云平台等多个业务中提供智能体能力。如智能电商导 购、商家运营助手、企业AI客服、阿里云灵积平台(向开发者提供Qwen模型API,可构建垂直行业Agent,如金融客服、医疗问诊、法律问答)。

Qwen-Agent 是基于通义千问模型(Qwen)的开源Agent开发框架, 支持函数调用、代码解释器和 RAG(检索增强生成)等功能,能够处 理从8K到100万 tokens 的文档,超越传统长上下文模型;

主要功能:1)指令遵循:Qwen-Agent 能理解和执行用户的指令;2)工具使用:支持智能体调用外部工具完成任务;3)记忆能力:QwenAgent 具备记忆上下文的能力;4)函数调用:支持智能体调用预定义的函数或 API;5)代码解释器:内置代码解释器,支持智能体执行和解 释代码;6)多代理框架:支持构建和管理多个智能代理;

技术原理:1)大语言模型(LLM):基于大型预训练语言模型;2)工具集成:集成各种工具,包括 API、脚本或外部程序;3)智能代理架 构:智能体能继承自 Agent 类,实现具体的应用逻辑;4)RAG 算法:用 RAG 算法处理长文档,将文档分割成小块,保留最相关的部分,提 升上下文处理能力;

示例应用:BrowserQwen,在Qwen-Agent的基础上开发的Chrome浏览器扩展:1)能与Qwen讨论当前网页或PDF文档的内容;2)记录 浏览过的网页和PDF/Word/PPT材料,帮助了解多个页面的内容、总结浏览过的内容、自动化繁琐的文字工作;3)集成各种插件,包括可用 于数学问题求解、数据分析与可视化、处理文件等的代码解释器。

未来展望:阿里2025年一季报中提到,所有 Qwen3 模型已在 ModelScope、Hugging Face 等平台全面开源,Qwen3 的全面开源将推动开 发者、初创企业和大型企业的创新实践与新应用落地。

阿里云百炼MCP

4 月 9 日,阿里云百炼上线全生命周期 MCP 服务,MCP服务可快速让大模型转化成真实场景的生产力工具。平台集成了阿里云函数计算、 200多款业界领先的大模型、50多款主流MCP服务,全面解决Agent开发所需的算力资源、大模型资源和应用工具链等。用户可根据需求选 择大模型和MCP服务,仅需简单的配置工作,无需代码几分钟即可完成一个Agent应用的搭建。

百炼平台首批上线了高德、无影、Fetch、Notion等50多款阿里巴巴集团和三方MCP服务,覆盖生活信息、浏览器、信息处理、内容生成等 领域,可满足不同场景的Agent应用开发需求,未来阿里巴巴集团更多应用和三方应用的MCP服务将逐步上线百炼平台,满足更多场景Agent 的开发需求。

参考报告

传媒行业分析:AI Agent生态建设提速,B、C两端价值明确.pdf

传媒行业分析:AIAgent生态建设提速,B、C两端价值明确。AIAgent是生成式AI商业化率先跑通的形态之一:回顾2023年以来的发展,AIAgent被广泛验证为能够提升效率并落地的大模型能力形态。相比纯粹对话式应用,Agent拥有任务感知、工具调用、自主规划与执行能力,成为从“大语言模型”到“企业智能员工”过渡的关键桥梁。而近期较为火热的Manus和Lovart也预示着AIAgent将成为未来数字生产力核心,Manus实现多智能体协同,自动拆解任务并跨平台执行,突破传统AI问答边界;Lovart打造全链路设计Agent,一句指令生成完整品牌...

查看详情
相关报告
我来回答