2025年计算机行业深度研究报告:Grok,xAI引领Agent加速落地

  • 来源:华创证券
  • 发布时间:2025/09/24
  • 浏览次数:513
  • 举报
相关深度报告REPORTS

计算机行业深度研究报告:Grok,xAI引领Agent加速落地.pdf

计算机行业深度研究报告:Grok,xAI引领Agent加速落地。Grok:马斯克创立,xAI公司旗下大语言模型。公司核心团队来自业内顶尖机构,曾参与GPT、AlphaStar等项目。Grok系列快速迭代,至2025年7月已发布五个版本:Grok-1、Grok-1.5、Grok-2、Grok-3和Grok-4。Grok-1是开源的纯文本MoE模型,在编码和知识测试中表现出色,优于ChatGPT-3.5。Grok1.5引入长上下文和图像理解;Grok-2整合实时检索和图像生成,形成多模态闭环,在MATH测试中追平GPT-4o,DocVQA领先;Grok-3显著强化推理能力,在AIME、GPQA等高...

一、xAI:马斯克旗下人工智能公司,Grok 系列的缔造者

Grok 系列是由马斯克旗下人工智能公司 xAI 自 2023 年起打造的大语言模型系列。目 前迭代至 Grok-4。xAI 于 2023 年 7 月 12 日创立,初创团队由 12 人组成,核心成员 分别来自 DeepMind、OpenAI、谷歌、微软、特斯拉等,曾参与 AlphaStar、GPT-3.5、GPT4 等业内大模型领域的研究。

二、Grok 系列:从 Grok-1-3 前代模型更新与回顾

(一)Grok 核心组件更新介绍

Grok 历经多版本快速迭代,参数与多模态能力持续进化。xAI 目前一共发布了五个正式 版本,xAI 于 2024 年 3 月发布并开源首个版本 Grok-1,4 月升级至 Grok-1.5V,8 月推出 Grok-2;进入 2025 年后,Grok-3 于 2 月面世,而最新版本 Grok-4 则于 7 月正式发布。 在文本容量方面,Grok 系列模型上下文窗口容量持续升级。Grok-1 为 8000 tokens,Grok2 提升至 128000 tokens,最新版本 Grok-4 翻倍至 256000 tokens。在模型功能方面,Grok1 只支持基础对话,Grok-1.5V 首次引入长上下文与图像理解功能,奠定了多模态基础。 Grok-2 整合实时检索与图像生成,实现大模型图文多模态的升级。Grok-3 延续多模态特 性,引入思维链分步推理与联网检索功能,增强模型复杂任务。最新 Grok-4 则保留多模 态支持并计划新增语音交互功能,并支持多智能体小组并行推理。

(二)Grok 系列:从文本模型到多模态的版本升级

1、Grok-1:xAI 的大文本模型的开山之作

Grok-1 是一款高性能的纯文本对话的基线模型。2024 年 3 月 xAI 将 Grok-1,初代模型 权重和架构完全开源。作为系列的基础版,Grok-1 采用了混合专家 MoE 架构,其参数 规模达到了 3140 亿。该模型由 8 个专家网络组成,其上下文窗口长度为 8000 个 token。 在训练方面,Grok-1 从零开始未经过指令微调和强化学习对齐,主要面向文本理解和生 成任务,可用于对话、问答、摘要等场景强化模型学习。根据官网公告测试结果,在 HumanEval 编码与 MMLU 任务中,Grok-1 分别达到了 63.2%和 73% 的超高准确率。 Grok-1 在测试成绩中优于 ChatGPT-3.5 和 Inflection-1,略逊于 GPT-4。

2、Grok-1.5 Vision:xAI 的首个多模态模型

Grok-1.5 Vision 在 Grok-1 的基础上优化了模型文本性能与图文分析能力。xAI 于 2024 年 4 月 12 日率先推出了 Grok-1.5 Vision,此次主要更新实现了多模态技术的重大突破, 成功整合了视觉信息处理功能。Grok-1.5 Vision 可将照片转换成可执行的 Python 代码 与表格转换为 CSV 数据,升级优化长文本处理性能,提升上下文理解与生成连贯性,主 要面向面对长文本处理和深度推理的场景,例如长文档分析、报告生成等。在 Mathvista 基准测试中,Grok-1.5V 取得了 52.8%的准确率;在 TextVQA 测试中,模型准确率达到 78.1%;在 RealWorldQA 测试中 Grok-1.5V 得分最高,与同期主流模型 GPT-4V、Claude 3 系列以及 Gemini Pro 1.5 的对比中成绩优异,展现出了较强的模型性能。

3、Grok-2 实现实时检索与图文闭环驱动的多模态跃迁

Grok-2 整合实时检索与图像生成,形成图文多模态闭环。xAI 于 2024 年 8 月 13 日推出 了 Grok-2 与轻量化 Grok-2 Mini 两个版本。Grok-2 通过架构优化、训练方法改进及功能 升级,在对话质量、推理能力及代码生成等关键维度均呈现优异表现。在视图领域方面, Grok-2 对比 Grok-1.5 新版本能理解和生成文本,根据描述生成图像。在文本交互方 面,Grok-2 在保持文本交互优势的基础上实现跨模态能力扩展。在实时信息深度集成方 面,模型接入马斯克 X 平台的实时数据,可以获取最新新闻和资讯,并引用实时信息。 Grok-2在模型的基准测试中整体表现优异。在数学测试MATH中,Grok -2超越了 Claude, 与 GPT-4o 的水平持平;在视觉基准测试 DocVQA 中,Grok-2 获得了同期模型的最高得 分,在 MMLU 代码测试中得分稍微落后于同期头部模型。

4、Grok-3:实现大规模推理与实时在线思考

Grok-3 优化推理模式以及 AI 工具板块的使用。Grok-3 于 2025 年 2 月发布,这一版本 在保持 Grok-2 多模态和实时信息能力的基础上,强化了复杂推理和自主工具使用,引 入了双推理模式:Think 模式和 DeepSearch 模式。在 Think 模式下,Grok-3 会采用链式 思维逐步分析问题,给出详细的推理过程,帮助用户理解模型的思考步骤。在 DeepSearch 模式下,模型则会调用内置的深度搜索引擎,对网络上的更多数据源进行检索。 DeepSearch 通常比普通检索耗时更长,提供更深入详细的结果。Grok-3 可以针对不同任 务选择最合适的推理策略:简单问题直接作答,复杂问题则分步思考或联网搜索。在算 力规模方面,Grok-3 投入达到了新的高度,模型由多个优化过的专家网络组成,每个网 络专攻不同领域,参数总数约 2.7 万亿。在 Grok-3 训练方面,xAI 利用了超级计算集群 Colossus 提供算力支持,总训练数据来源自互联网与合成数据。Grok-3 展示了 xAI 在通 用人工智能方面的巨大进步。

Grok-3 在数学、科学和编码等基准测试表现优异。Grok-3 在各项基准测试方面,击败了 同期行业旗舰款大模型:Google Gemini-2pro、DeepSeek V3、Claude3.5 以及 OpenAI 的 GPT-4o。根据 xAI 公开的测试结果,Grok-3 在美国数学邀请赛 AIME 与博士级多学科 问答 GPQA 等多项高阶认知评测中,表现优于 GPT-4o、Gemini-2 Pro、DeepSeek V3、 Claude 3.5 Sonnet 等同期主流旗舰大模型;在大模型竞技场 Chatbot Arena 中 Grok-3 的 早期版本以 1402 分的 Elo 评分位居榜首。

三、Grok-4:xAI 最新多维智能体模型

(一)高性能测试:Grok-4 多模态交互+跨领域博士级表现

2025 年 7 月 10 日,马斯克通过其旗下的 X 平台发布了新一代人工智能模型 Grok-4。在 发布会中 xAI 团队重点展示 Grok-4 在多模态交互与跨学科领域的性能评估数据,马斯克 宣称该系统综合性能全球领先,目前模型学术研究能力已达到博士级别专业水准。Grok4 研发团队表示将持续优化模型短板,通过针对性训练提升综合表现。

1、多维 Agent 算力互助,Grok-4 领衔 AI 学术领域

Grok-4 在复杂知识领域以及相关测试中表现优异。马斯克在发布会上宣称 Grok-4 在理 工、编程等高难度学科领域已达到博士研究水平。Grok-4 由 xAI 的 Colossus 超级计算机 训练,在 API 模式下支持 256,000 tokens 的超大上下文窗口,远超前代 Grok-3 的处理能 力。自 Grok-2 至 Grok-4,计算资源投入总共增加了一百倍。xAI 推出普通单智能体“Grok4”与会员版多智能体 “Grok-4 Heavy” 双版本。会员版支持多个智能体并行工作,通 过小组协作思考,选取最优解决方案。在性能测试上, xAI 采用"人类最后一场闭卷考试 "(Human-Level Examination, HLE)基准对 Grok-4 进行评估。HLE 基准测试由全球多领 域权威专家联合制定,涵盖数学、生物、计算机等学科的 2500 个高阶专业问题,对标博 士级科研难度,在业界内是评估模型在跨学科推理、复杂系统分析能力的权威测试。Grok4 以 44.4%的准确率,刷新了历史得分记录;Grok-4 在国际数学竞赛 AIME 2024、SAT 以 及美国研究生入学考试 GRE 等传统大模型测试中取得了高分。目前两款模型在复杂知识 表征、跨域推理及高阶认知测试得分优于 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等 当前的业内大模型。

2、Grok-4 实体工具链深度整合,多模态助力场景能力交互提升

Grok-4 在多场景展现出色的多模态交互与场景落地能力。在体育赛事预测方面,Grok-4 通过融合 Polymarket 平台数据与 FanGraphs 赛事信息自主计算胜率,完成对 2025 年 MLB 世界大赛冠军的实时赔率分析与冠军预测。在物理分析方面,Grok-4 通过代码指引生成 了一个关于两个黑洞碰撞并产生引力波的 HTML 动画。在商务场景中,xAI 模拟了 "自 动售货机基准测试"(Vending-Bench),Grok-4 通过智能库存管理、供应链优化和动态定价 策略,创造了极高的净利润。在媒体主观理解方面,xAI 展现了在 X 平台上准确找出“xAI 员工最古怪的头像”,体现了 Grok-4 主观概念的精准理解及图片搜索与分析能力;同时, 它还能从社交媒体中提取关键事件并进行时间排序与信息提取,完成梳理关于“人类最 终考试”分数变化的 X 帖子时间线的复杂任务操作。

Grok-4 更新 AI 伴侣与车载助手功能。Grok-4 正式发布后,又更新两项新功能:1)xAI 为 Grok 推出“AI 伴侣”实验性功能,目前仅向每月 30 美元订阅的 SuperGrok 用户开 放,互动支持语音同步与 3D 动画表情,用户可通过提升“亲密度等级”解锁更多功能 体验。2)特斯拉于 2025 年 7 月 12 日正式启动车载系统升级推送,符合升级条件的车辆 将搭载集成Grok的人工智能交互系统,用户可通过自然语音指令与Grok实现免提交互, 系统支持导航路径规划、多媒体内容控制、实时信息查询及旅途陪伴式对话等多场景应 用。此次升级采取双轨部署策略:新出厂车型将预装 Grok 系统,存量市场分批次完成更 新预装。

3、Grok 后续更新计划:算力筑基加持视频图文多模态演化

Grok 未来将加速迭代,强化多模态与工具调用能力,全面布局企业级 Agent 应用场景。 目前 Grok-4 基础模型仍处持续训练阶段,后续将投入十一万颗 GB200 进行强化学习优 化。未来 Grok-4 将新增视频理解功能并强化工具调用能力。 Grok-4 现已开放 API,产 品路线图显示:8 月 Grok-4 将推出编程专用版本,9 月发布多模态智能体版本,10 月正 式上线视频模型。

算力筑基,xAI 发布未来超算集群蓝图。7 月 23 日,埃隆·马斯克通过 X 平台正式公布 了其旗下人工智能企业 xAI 的算力发展规划,明确提出将在未来五年内实现相当于 5000 万块英伟达 H100 Tensor Core GPU 的算力规模目标。与此同时,马斯克披露了 xAI 正在 建设中的 Colossus 2 超级计算集群的实景照片,该集群全部设备均采用先进的液冷技术, 首批搭载英伟 GB200/GB300 架构的 AI 训练系统将与 Colossus 2 同步部署并正式投入使 用。

四、海内外大模型持续迭代升级,多模态场景加速落地

海外巨头领跑大模型市场。截至 8 月,国际 AI 性能评测权威网站 LiveBenchs 与 XBench 的性能数据显示,xAI、Anthropic、OpenAI 以及 Google 四大巨头在 AI 大模型领域占据 着主导地位。xAI 的 Grok-4、OpenAI 的 o3 系列和谷歌旗下的 Gemini 2.5 Pro、Anthropic 的 Claude 4 是当下大模型市场公认的旗舰产品,是全球 AI 大模型编程领域的领军产品。 OpenAI 的 o3 系列凭借其卓越的综合性能,保持领先地位,Claude 4 在代码生成与编程 相关任务中表现突出, Grok-4 则在科学研究与数理逻辑推理方面具有优势,Gemini 2.5 Pro 在多模态、推理、编程及知识理解等核心维度具有较强的竞争力。海外巨头依托海量 异构数据的规模化采集与处理能力,在多模态融合应用与知识图谱构建两大核心维度持 续突破技术边界,驱动产品迭代与范式创新。

(一)海外方面:巨头领衔大模型市场方向

1、ChatGPT:高性能 AI 大模型龙头

OpenAI 以 GPT 系列为基石,持续推进多模态更新落地。OpenAI 成立于 2015 年,由 Sam Altman、Elon Musk 等人联合创立,是一家专注于人工智能研究与开发的前沿科技 公司。其核心产品包括 GPT 系列大语言模型 及 ChatGPT。GPT 是模型,而 ChatGPT 是 基于该模型开发的智能聊天机器人程序,ChatGPT 功能性能依托于 GPT 模型的性能与容 量。2018 年,OpenAI 发布了初代预训练语言模型 GPT-1。2021 年 3 月,OpenAI 正式推 出基于 GPT-3 架构的 ChatGPT 程序。首个多模态模型 GPT-4 于 2023 年 3 月发布,GPT 模型持续迭代升级,并推出 GPT-4o,GPT-4.5、、 o3、o4mini、GPT-4.1 和 ChatGPT Agent 等系列产品。 OpenAI 新品多项测试创新高。OpenAI 于 7 月发布了 ChatGPT Agent 新功能模块,该智 能体整合了此前 GPT-4 系列两个功能模块 Operator 和 DeepResearch,是一块能够自主 地完成复杂任务多 Agent 聚合产品。ChatGPT Agent 在 Humanity's Last Exam、DSBench、 WebArena 等基准测试上取得优异成绩。。2025 年 8 月,OpenAI 发布了融合 GPT 与 o 系 列的新代模型 GPT-5,集成了快速响应与深度推理双模型并由即时路由器智能分流,GPT5 Pro 在 SWE - bench Verified 测试得分 74.9%,在 Aider Polyglot 测试中达到 88%,优于 o3,展现出强大的编程能力。

2、Claude:专注代码智能,行业编程基准领先

Anthropic 核心成员多数由前 OpenAI 班底组成,是 Claude 系列大模型的创造者。 Anthropic 于 2021 年创立,创始团队成员多数来自前 OpenAI 的研究成员。,包括前 OpenAI 研究副总裁 Dario Amodei、安全政策副总裁 Daniela Amodei 等七位资深研究人 员。2023 年 3 月,Anthropic 公司发布了其第一代大语言模型 Claude 1;同年 7 月,该公 司进一步推出了 Claude 2 系列模型。2024 年 3 月,Anthropic 正式发布 Claude 3 系列模 型,该系列包含旗舰版 Opus、均衡版 Sonnet 和轻量版 Haiku 三个版本。后续持续推出了 多模态升级 Claude 3.5 Sonnet 以及快速版 Claude 3.5 Haiku。 Claude 4 在软件编码能力功能上表现卓越。截止到 2025 年 8 月已经迭代到了 Claude 4, Claude 4 在编码和复杂推理方面表现出色,Opus 4 版本适用于复杂长程任务和智能体工 作流。该系列支持并行工具使用,可边思考边调用工具完善回答。Anthropic 还推出了 Claude Code 系列的编程工具,如 VS Code 插件和 GitHub Actions。目前,Claude 4 通过 Amazon Bedrock 和 Google Vertex AI 等平台提供服务。在 SWE-bench Verified 软件工程 能力测试中,Claude 4 系列模型展现出行业领先的软件工程能力:Claude Sonnet 4 准确 率达到 80.2%,Claude Opus 4 达到 79.4%,两项成绩均超越 GPT-4.1 和 Google Gemini 2.5 Pro。 8 月,Anthropic 正式发布了 Claude Opus 4.1 新版本,在智能体任务处理、现实 世界编程应用及逻辑推理能力三大领域,对 Claude Opus 4 进行了了全面升级。在编程基 准 SWE-bench Verified 上,从 Opus 4.0 的 72.5%提升到了 Opus 4.1 的 74.5%准确率。

3、Gemini:谷歌旗下全能型多模态大模型

Google 谷歌推出全能型大模型产品。Google DeepMind 是谷歌于 2023 年整合旗下 DeepMind 与 Google Brain 两大团队成立的工智能 AGI 核心部门。DeepMind 于 2023 年 12 月发布 Gemini 1.0;随后推出 Gemini 1.5 Pro 与 Gemini 2.0 Flash。Gemini 2.5 Pro 是 谷歌目前性能最高的模型,截止 2025 年 7 月谷歌一共发布了两个版本模型。2025 年 5月,Gemini 2.5 Pro Preview 0506 版本发布,模型新增了深度思考功能模块;6 月,谷歌 推出了 Gemini 2.5 Pro 正式版,此次整合修复了上一版在处理非编码任务时的性能问题, 扩展了上下文窗口容量,同时创新性地引入思维预算功能模块。在官方数学、编程及推 理基准测试中,该模型的表现全面超越 o3 和 Claude 4 的最新版本;同时在 GPQA、AIME 2025 等顶级学术评估中,Gemini 2.5 Pro 也取得了优异成绩。

(二)国内方面:大模型多点突破,性价比优势显著

国内大模型多点突破,算力与成本优势明显。截至 6 月底,我国生成式人工智能服务与 应用的备案及登记体系已进入规模化落地阶段,全国累计完成备案的生成式人工智能服 务达 439 款,登记应用 233 款,国产基础模梯队包括 Kimi k2、DeepSeekV3 和 Alibaba 的 Qwen3,在 SWE-Bench、Tau2 和 AceBench 评测中,Kimi k2 表现突出,评分能力超过 Claude 4 Opus。DeepSeek-V3 和 Qwen3 在中文语义理解和垂直领域任务中保持优势。算 力效率上,Kimi k2 将参数规模增至 1T。DeepSeek-V3 通过动态缓存机制优化,缓存命中时成本仅 0.5 元/百万 Tokens。这些突破增强了国产大模型的国际竞争力,并加速了智能 化产业的发展。

1、DeepSeek: R1 多维度测评成绩优异

DeepSeek 持续进行技术迭代与产品升级,当前最新发布的 R1-0528 版本是该系列的最高 的性能旗舰模型。DeepSeek 是由初创企业杭州深度求索 DeepSeek-AI 研发的大型语言模 型, DeepSeek-AI 成立于 2023 年 7 月 17 日。2024 年 1 月,DeepSeek 发布了其首个公 开大语言模型 DeepSeek LLM,5 月推出 DeepSeek-V2,同年 12 月,同步开源了视觉模 型 DeepSeek-VL2 与第三代大语言模型 DeepSeek-V3。2025 年 1 月,公司正式发布 DeepSeek-R1 模型,并同步开源模型权重。2025 年 5 月 29 日,DeepSeek-R1 模型已完成 小版本升级,更新为 DeepSeek-R1-0528 版本。新版本延用了 V3 Base 模型作为基座,在 后训练过程中投入了更多算力。DeepSeek R1 在深度逻辑推理与代码解析领域表现卓越, 而 V3 作为多模态大型语言模型,目前是 DeepSeek 的核心模型基底。更新后的 R1 在 数学、编程及逻辑推理等基准测评中成绩优秀,整体性能上已接近国际顶尖模型 o3 与 Gemini-2.5-Pro。2025 年 8 月 19 日 DeepSeek-V3.1 正式发布,新版本大幅提升模型灵活 性与思考效率,并基于 Post-Training 优化显著增强 Agent 能力,在工具使用与智能体任 务执行上表现突出。

2、月之暗面:KimK2 综合性能领跑国内大模型

月之暗面最新产品 Kimi K2,性能逼近国际头部水平公司成立于 2023 年 4 月 17 日,由 前清华大学助理教授杨植麟创立。2023 年 10 月,公司正式推出第一代智能助手产品 Kimi Chat,2025 年 1 月 20 日,Kimi 正式发布新一代多模态思考模型 K1.5。2025 年 7 月 11 日,月之暗面正式发布采用新一代 MoE 架构的基础模型 Kimi K2,并同步实现模型开源。 在官方发布的基准测试中,Kimi K2 在代码生成、工具使用、数学推理及通用理解四大核 心维度上全面领跑国内开源模型,其综合性能已逼近国际头部模型水平。在代码能力与 模型性能方面,在 SWE-bench Multilingual 评测和 Tau2-bench 测试中的表现接近 Claude 4 系列。在 AceBench 测试中与 GPT-4.1 不相上下。Kimi K2 的数学与推理同样突出: AIME 2025 和 GPQA-Diamond 测试中显著领先。

3、通义千问:阿里开源国内最强代码模型

通义千问系列(Qwen)是由阿里巴巴集团旗下达摩院开发大语言模型系列。2023 年,阿 里开源第一代模型 Qwen 1.0;2024 年 2 月发布 Qwen-1.5,同年 7 月推出 Qwen 2,并于 同年 8 月进一步拓展模型矩阵,发布面向数学、音频及视觉领域的 Qwen2-Math、Qwen2- Audio 以及 Qwen2-VL,9 月更新过渡版本 Qwen2.5;2025 年 4 月,Qwen3 系列大模型正 式发布,其中包括 Qwen3-235B-A22B 版本。7 月 22 日,阿里巴巴对该 235B-A22B 版本 进行了优化升级,推出 Instruct-2507 新版本。7 月 23 日,阿里巴巴正式发布了对标 Claude 4 的 Qwen3 Coder 编程模型。Qwen3 Coder 在多个编码基准测试中表现优异,展现出超强 的代码生成与模型能力,在代理编码、浏览器应用和工具调用三大指标获得出色成绩, 性能得分媲美 Claude Sonnet 4。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至