2025年计算机行业深度研究报告：Grok，xAI引领Agent加速落地

来源：华创证券
发布时间：2025/09/24
浏览次数：513
举报

相关深度报告REPORTS

计算机行业深度研究报告：Grok，xAI引领Agent加速落地.pdf

计算机行业深度研究报告：Grok，xAI引领Agent加速落地。Grok：马斯克创立，xAI公司旗下大语言模型。公司核心团队来自业内顶尖机构，曾参与GPT、AlphaStar等项目。Grok系列快速迭代，至2025年7月已发布五个版本：Grok-1、Grok-1.5、Grok-2、Grok-3和Grok-4。Grok-1是开源的纯文本MoE模型，在编码和知识测试中表现出色，优于ChatGPT-3.5。Grok1.5引入长上下文和图像理解；Grok-2整合实时检索和图像生成，形成多模态闭环，在MATH测试中追平GPT-4o，DocVQA领先；Grok-3显著强化推理能力，在AIME、GPQA等高...

一、xAI：马斯克旗下人工智能公司，Grok 系列的缔造者

Grok 系列是由马斯克旗下人工智能公司 xAI 自 2023 年起打造的大语言模型系列。目前迭代至 Grok-4。xAI 于 2023 年 7 月 12 日创立，初创团队由 12 人组成，核心成员分别来自 DeepMind、OpenAI、谷歌、微软、特斯拉等，曾参与 AlphaStar、GPT-3.5、GPT4 等业内大模型领域的研究。

二、Grok 系列：从 Grok-1-3 前代模型更新与回顾

（一）Grok 核心组件更新介绍

Grok 历经多版本快速迭代，参数与多模态能力持续进化。xAI 目前一共发布了五个正式版本，xAI 于 2024 年 3 月发布并开源首个版本 Grok-1，4 月升级至 Grok-1.5V，8 月推出 Grok-2；进入 2025 年后，Grok-3 于 2 月面世，而最新版本 Grok-4 则于 7 月正式发布。在文本容量方面，Grok 系列模型上下文窗口容量持续升级。Grok-1 为 8000 tokens，Grok2 提升至 128000 tokens，最新版本 Grok-4 翻倍至 256000 tokens。在模型功能方面，Grok1 只支持基础对话，Grok-1.5V 首次引入长上下文与图像理解功能，奠定了多模态基础。 Grok-2 整合实时检索与图像生成，实现大模型图文多模态的升级。Grok-3 延续多模态特性，引入思维链分步推理与联网检索功能，增强模型复杂任务。最新 Grok-4 则保留多模态支持并计划新增语音交互功能，并支持多智能体小组并行推理。

（二）Grok 系列：从文本模型到多模态的版本升级

1、Grok-1：xAI 的大文本模型的开山之作

Grok-1 是一款高性能的纯文本对话的基线模型。2024 年 3 月 xAI 将 Grok-1，初代模型权重和架构完全开源。作为系列的基础版，Grok-1 采用了混合专家 MoE 架构，其参数规模达到了 3140 亿。该模型由 8 个专家网络组成，其上下文窗口长度为 8000 个 token。在训练方面，Grok-1 从零开始未经过指令微调和强化学习对齐，主要面向文本理解和生成任务，可用于对话、问答、摘要等场景强化模型学习。根据官网公告测试结果，在 HumanEval 编码与 MMLU 任务中，Grok-1 分别达到了 63.2%和 73% 的超高准确率。 Grok-1 在测试成绩中优于 ChatGPT-3.5 和 Inflection-1，略逊于 GPT-4。

2、Grok-1.5 Vision：xAI 的首个多模态模型

Grok-1.5 Vision 在 Grok-1 的基础上优化了模型文本性能与图文分析能力。xAI 于 2024 年 4 月 12 日率先推出了 Grok-1.5 Vision，此次主要更新实现了多模态技术的重大突破，成功整合了视觉信息处理功能。Grok-1.5 Vision 可将照片转换成可执行的 Python 代码与表格转换为 CSV 数据，升级优化长文本处理性能，提升上下文理解与生成连贯性，主要面向面对长文本处理和深度推理的场景，例如长文档分析、报告生成等。在 Mathvista 基准测试中，Grok-1.5V 取得了 52.8%的准确率；在 TextVQA 测试中，模型准确率达到 78.1%；在 RealWorldQA 测试中 Grok-1.5V 得分最高，与同期主流模型 GPT-4V、Claude 3 系列以及 Gemini Pro 1.5 的对比中成绩优异，展现出了较强的模型性能。

3、Grok-2 实现实时检索与图文闭环驱动的多模态跃迁

Grok-2 整合实时检索与图像生成，形成图文多模态闭环。xAI 于 2024 年 8 月 13 日推出了 Grok-2 与轻量化 Grok-2 Mini 两个版本。Grok-2 通过架构优化、训练方法改进及功能升级，在对话质量、推理能力及代码生成等关键维度均呈现优异表现。在视图领域方面， Grok-2 对比 Grok-1.5 新版本能理解和生成文本，根据描述生成图像。在文本交互方面，Grok-2 在保持文本交互优势的基础上实现跨模态能力扩展。在实时信息深度集成方面，模型接入马斯克 X 平台的实时数据，可以获取最新新闻和资讯，并引用实时信息。 Grok-2在模型的基准测试中整体表现优异。在数学测试MATH中，Grok -2超越了 Claude，与 GPT-4o 的水平持平；在视觉基准测试 DocVQA 中，Grok-2 获得了同期模型的最高得分，在 MMLU 代码测试中得分稍微落后于同期头部模型。

4、Grok-3：实现大规模推理与实时在线思考

Grok-3 优化推理模式以及 AI 工具板块的使用。Grok-3 于 2025 年 2 月发布，这一版本在保持 Grok-2 多模态和实时信息能力的基础上，强化了复杂推理和自主工具使用，引入了双推理模式：Think 模式和 DeepSearch 模式。在 Think 模式下，Grok-3 会采用链式思维逐步分析问题，给出详细的推理过程，帮助用户理解模型的思考步骤。在 DeepSearch 模式下，模型则会调用内置的深度搜索引擎，对网络上的更多数据源进行检索。 DeepSearch 通常比普通检索耗时更长，提供更深入详细的结果。Grok-3 可以针对不同任务选择最合适的推理策略：简单问题直接作答，复杂问题则分步思考或联网搜索。在算力规模方面，Grok-3 投入达到了新的高度，模型由多个优化过的专家网络组成，每个网络专攻不同领域，参数总数约 2.7 万亿。在 Grok-3 训练方面，xAI 利用了超级计算集群 Colossus 提供算力支持，总训练数据来源自互联网与合成数据。Grok-3 展示了 xAI 在通用人工智能方面的巨大进步。

Grok-3 在数学、科学和编码等基准测试表现优异。Grok-3 在各项基准测试方面，击败了同期行业旗舰款大模型：Google Gemini-2pro、DeepSeek V3、Claude3.5 以及 OpenAI 的 GPT-4o。根据 xAI 公开的测试结果，Grok-3 在美国数学邀请赛 AIME 与博士级多学科问答 GPQA 等多项高阶认知评测中，表现优于 GPT-4o、Gemini-2 Pro、DeepSeek V3、 Claude 3.5 Sonnet 等同期主流旗舰大模型；在大模型竞技场 Chatbot Arena 中 Grok-3 的早期版本以 1402 分的 Elo 评分位居榜首。

三、Grok-4：xAI 最新多维智能体模型

（一）高性能测试：Grok-4 多模态交互+跨领域博士级表现

2025 年 7 月 10 日，马斯克通过其旗下的 X 平台发布了新一代人工智能模型 Grok-4。在发布会中 xAI 团队重点展示 Grok-4 在多模态交互与跨学科领域的性能评估数据，马斯克宣称该系统综合性能全球领先，目前模型学术研究能力已达到博士级别专业水准。Grok4 研发团队表示将持续优化模型短板，通过针对性训练提升综合表现。

1、多维 Agent 算力互助，Grok-4 领衔 AI 学术领域

Grok-4 在复杂知识领域以及相关测试中表现优异。马斯克在发布会上宣称 Grok-4 在理工、编程等高难度学科领域已达到博士研究水平。Grok-4 由 xAI 的 Colossus 超级计算机训练，在 API 模式下支持 256,000 tokens 的超大上下文窗口，远超前代 Grok-3 的处理能力。自 Grok-2 至 Grok-4，计算资源投入总共增加了一百倍。xAI 推出普通单智能体“Grok4”与会员版多智能体 “Grok-4 Heavy” 双版本。会员版支持多个智能体并行工作，通过小组协作思考，选取最优解决方案。在性能测试上， xAI 采用"人类最后一场闭卷考试 "（Human-Level Examination, HLE）基准对 Grok-4 进行评估。HLE 基准测试由全球多领域权威专家联合制定，涵盖数学、生物、计算机等学科的 2500 个高阶专业问题，对标博士级科研难度，在业界内是评估模型在跨学科推理、复杂系统分析能力的权威测试。Grok4 以 44.4%的准确率，刷新了历史得分记录；Grok-4 在国际数学竞赛 AIME 2024、SAT 以及美国研究生入学考试 GRE 等传统大模型测试中取得了高分。目前两款模型在复杂知识表征、跨域推理及高阶认知测试得分优于 OpenAI o3、Gemini 2.5 Pro 以及 Claude 4 等当前的业内大模型。

2、Grok-4 实体工具链深度整合，多模态助力场景能力交互提升

Grok-4 在多场景展现出色的多模态交互与场景落地能力。在体育赛事预测方面，Grok-4 通过融合 Polymarket 平台数据与 FanGraphs 赛事信息自主计算胜率，完成对 2025 年 MLB 世界大赛冠军的实时赔率分析与冠军预测。在物理分析方面，Grok-4 通过代码指引生成了一个关于两个黑洞碰撞并产生引力波的 HTML 动画。在商务场景中，xAI 模拟了 "自动售货机基准测试"(Vending-Bench)，Grok-4 通过智能库存管理、供应链优化和动态定价策略，创造了极高的净利润。在媒体主观理解方面，xAI 展现了在 X 平台上准确找出“xAI 员工最古怪的头像”，体现了 Grok-4 主观概念的精准理解及图片搜索与分析能力；同时，它还能从社交媒体中提取关键事件并进行时间排序与信息提取，完成梳理关于“人类最终考试”分数变化的 X 帖子时间线的复杂任务操作。

Grok-4 更新 AI 伴侣与车载助手功能。Grok-4 正式发布后，又更新两项新功能：1）xAI 为 Grok 推出“AI 伴侣”实验性功能，目前仅向每月 30 美元订阅的 SuperGrok 用户开放，互动支持语音同步与 3D 动画表情，用户可通过提升“亲密度等级”解锁更多功能体验。2）特斯拉于 2025 年 7 月 12 日正式启动车载系统升级推送，符合升级条件的车辆将搭载集成Grok的人工智能交互系统，用户可通过自然语音指令与Grok实现免提交互，系统支持导航路径规划、多媒体内容控制、实时信息查询及旅途陪伴式对话等多场景应用。此次升级采取双轨部署策略：新出厂车型将预装 Grok 系统，存量市场分批次完成更新预装。

3、Grok 后续更新计划：算力筑基加持视频图文多模态演化

Grok 未来将加速迭代，强化多模态与工具调用能力，全面布局企业级 Agent 应用场景。目前 Grok-4 基础模型仍处持续训练阶段，后续将投入十一万颗 GB200 进行强化学习优化。未来 Grok-4 将新增视频理解功能并强化工具调用能力。 Grok-4 现已开放 API，产品路线图显示：8 月 Grok-4 将推出编程专用版本，9 月发布多模态智能体版本，10 月正式上线视频模型。

算力筑基，xAI 发布未来超算集群蓝图。7 月 23 日，埃隆·马斯克通过 X 平台正式公布了其旗下人工智能企业 xAI 的算力发展规划，明确提出将在未来五年内实现相当于 5000 万块英伟达 H100 Tensor Core GPU 的算力规模目标。与此同时，马斯克披露了 xAI 正在建设中的 Colossus 2 超级计算集群的实景照片，该集群全部设备均采用先进的液冷技术，首批搭载英伟 GB200/GB300 架构的 AI 训练系统将与 Colossus 2 同步部署并正式投入使用。

四、海内外大模型持续迭代升级，多模态场景加速落地

海外巨头领跑大模型市场。截至 8 月，国际 AI 性能评测权威网站 LiveBenchs 与 XBench 的性能数据显示，xAI、Anthropic、OpenAI 以及 Google 四大巨头在 AI 大模型领域占据着主导地位。xAI 的 Grok-4、OpenAI 的 o3 系列和谷歌旗下的 Gemini 2.5 Pro、Anthropic 的 Claude 4 是当下大模型市场公认的旗舰产品，是全球 AI 大模型编程领域的领军产品。 OpenAI 的 o3 系列凭借其卓越的综合性能，保持领先地位，Claude 4 在代码生成与编程相关任务中表现突出， Grok-4 则在科学研究与数理逻辑推理方面具有优势，Gemini 2.5 Pro 在多模态、推理、编程及知识理解等核心维度具有较强的竞争力。海外巨头依托海量异构数据的规模化采集与处理能力，在多模态融合应用与知识图谱构建两大核心维度持续突破技术边界，驱动产品迭代与范式创新。

（一）海外方面：巨头领衔大模型市场方向

1、ChatGPT：高性能 AI 大模型龙头

OpenAI 以 GPT 系列为基石，持续推进多模态更新落地。OpenAI 成立于 2015 年，由 Sam Altman、Elon Musk 等人联合创立，是一家专注于人工智能研究与开发的前沿科技公司。其核心产品包括 GPT 系列大语言模型及 ChatGPT。GPT 是模型，而 ChatGPT 是基于该模型开发的智能聊天机器人程序，ChatGPT 功能性能依托于 GPT 模型的性能与容量。2018 年，OpenAI 发布了初代预训练语言模型 GPT-1。2021 年 3 月，OpenAI 正式推出基于 GPT-3 架构的 ChatGPT 程序。首个多模态模型 GPT-4 于 2023 年 3 月发布，GPT 模型持续迭代升级，并推出 GPT-4o，GPT-4.5、、 o3、o4mini、GPT-4.1 和 ChatGPT Agent 等系列产品。 OpenAI 新品多项测试创新高。OpenAI 于 7 月发布了 ChatGPT Agent 新功能模块，该智能体整合了此前 GPT-4 系列两个功能模块 Operator 和 DeepResearch，是一块能够自主地完成复杂任务多 Agent 聚合产品。ChatGPT Agent 在 Humanity's Last Exam、DSBench、 WebArena 等基准测试上取得优异成绩。。2025 年 8 月，OpenAI 发布了融合 GPT 与 o 系列的新代模型 GPT-5，集成了快速响应与深度推理双模型并由即时路由器智能分流，GPT5 Pro 在 SWE - bench Verified 测试得分 74.9%，在 Aider Polyglot 测试中达到 88%，优于 o3，展现出强大的编程能力。

2、Claude：专注代码智能，行业编程基准领先

Anthropic 核心成员多数由前 OpenAI 班底组成，是 Claude 系列大模型的创造者。 Anthropic 于 2021 年创立，创始团队成员多数来自前 OpenAI 的研究成员。，包括前 OpenAI 研究副总裁 Dario Amodei、安全政策副总裁 Daniela Amodei 等七位资深研究人员。2023 年 3 月，Anthropic 公司发布了其第一代大语言模型 Claude 1；同年 7 月，该公司进一步推出了 Claude 2 系列模型。2024 年 3 月，Anthropic 正式发布 Claude 3 系列模型，该系列包含旗舰版 Opus、均衡版 Sonnet 和轻量版 Haiku 三个版本。后续持续推出了多模态升级 Claude 3.5 Sonnet 以及快速版 Claude 3.5 Haiku。 Claude 4 在软件编码能力功能上表现卓越。截止到 2025 年 8 月已经迭代到了 Claude 4， Claude 4 在编码和复杂推理方面表现出色，Opus 4 版本适用于复杂长程任务和智能体工作流。该系列支持并行工具使用，可边思考边调用工具完善回答。Anthropic 还推出了 Claude Code 系列的编程工具，如 VS Code 插件和 GitHub Actions。目前，Claude 4 通过 Amazon Bedrock 和 Google Vertex AI 等平台提供服务。在 SWE-bench Verified 软件工程能力测试中，Claude 4 系列模型展现出行业领先的软件工程能力：Claude Sonnet 4 准确率达到 80.2%，Claude Opus 4 达到 79.4%，两项成绩均超越 GPT-4.1 和 Google Gemini 2.5 Pro。 8 月，Anthropic 正式发布了 Claude Opus 4.1 新版本，在智能体任务处理、现实世界编程应用及逻辑推理能力三大领域，对 Claude Opus 4 进行了了全面升级。在编程基准 SWE-bench Verified 上，从 Opus 4.0 的 72.5%提升到了 Opus 4.1 的 74.5%准确率。

3、Gemini：谷歌旗下全能型多模态大模型

Google 谷歌推出全能型大模型产品。Google DeepMind 是谷歌于 2023 年整合旗下 DeepMind 与 Google Brain 两大团队成立的工智能 AGI 核心部门。DeepMind 于 2023 年 12 月发布 Gemini 1.0；随后推出 Gemini 1.5 Pro 与 Gemini 2.0 Flash。Gemini 2.5 Pro 是谷歌目前性能最高的模型，截止 2025 年 7 月谷歌一共发布了两个版本模型。2025 年 5月，Gemini 2.5 Pro Preview 0506 版本发布，模型新增了深度思考功能模块；6 月，谷歌推出了 Gemini 2.5 Pro 正式版，此次整合修复了上一版在处理非编码任务时的性能问题，扩展了上下文窗口容量，同时创新性地引入思维预算功能模块。在官方数学、编程及推理基准测试中，该模型的表现全面超越 o3 和 Claude 4 的最新版本；同时在 GPQA、AIME 2025 等顶级学术评估中，Gemini 2.5 Pro 也取得了优异成绩。

（二）国内方面：大模型多点突破，性价比优势显著

国内大模型多点突破，算力与成本优势明显。截至 6 月底，我国生成式人工智能服务与应用的备案及登记体系已进入规模化落地阶段，全国累计完成备案的生成式人工智能服务达 439 款，登记应用 233 款，国产基础模梯队包括 Kimi k2、DeepSeekV3 和 Alibaba 的 Qwen3，在 SWE-Bench、Tau2 和 AceBench 评测中，Kimi k2 表现突出，评分能力超过 Claude 4 Opus。DeepSeek-V3 和 Qwen3 在中文语义理解和垂直领域任务中保持优势。算力效率上，Kimi k2 将参数规模增至 1T。DeepSeek-V3 通过动态缓存机制优化，缓存命中时成本仅 0.5 元/百万 Tokens。这些突破增强了国产大模型的国际竞争力，并加速了智能化产业的发展。

1、DeepSeek： R1 多维度测评成绩优异

DeepSeek 持续进行技术迭代与产品升级，当前最新发布的 R1-0528 版本是该系列的最高的性能旗舰模型。DeepSeek 是由初创企业杭州深度求索 DeepSeek-AI 研发的大型语言模型， DeepSeek-AI 成立于 2023 年 7 月 17 日。2024 年 1 月，DeepSeek 发布了其首个公开大语言模型 DeepSeek LLM，5 月推出 DeepSeek-V2，同年 12 月，同步开源了视觉模型 DeepSeek-VL2 与第三代大语言模型 DeepSeek-V3。2025 年 1 月，公司正式发布 DeepSeek-R1 模型，并同步开源模型权重。2025 年 5 月 29 日，DeepSeek-R1 模型已完成小版本升级，更新为 DeepSeek-R1-0528 版本。新版本延用了 V3 Base 模型作为基座，在后训练过程中投入了更多算力。DeepSeek R1 在深度逻辑推理与代码解析领域表现卓越，而 V3 作为多模态大型语言模型，目前是 DeepSeek 的核心模型基底。更新后的 R1 在数学、编程及逻辑推理等基准测评中成绩优秀，整体性能上已接近国际顶尖模型 o3 与 Gemini-2.5-Pro。2025 年 8 月 19 日 DeepSeek-V3.1 正式发布，新版本大幅提升模型灵活性与思考效率，并基于 Post-Training 优化显著增强 Agent 能力，在工具使用与智能体任务执行上表现突出。

2、月之暗面：KimK2 综合性能领跑国内大模型

月之暗面最新产品 Kimi K2，性能逼近国际头部水平公司成立于 2023 年 4 月 17 日，由前清华大学助理教授杨植麟创立。2023 年 10 月，公司正式推出第一代智能助手产品 Kimi Chat，2025 年 1 月 20 日，Kimi 正式发布新一代多模态思考模型 K1.5。2025 年 7 月 11 日，月之暗面正式发布采用新一代 MoE 架构的基础模型 Kimi K2，并同步实现模型开源。在官方发布的基准测试中，Kimi K2 在代码生成、工具使用、数学推理及通用理解四大核心维度上全面领跑国内开源模型，其综合性能已逼近国际头部模型水平。在代码能力与模型性能方面，在 SWE-bench Multilingual 评测和 Tau2-bench 测试中的表现接近 Claude 4 系列。在 AceBench 测试中与 GPT-4.1 不相上下。Kimi K2 的数学与推理同样突出： AIME 2025 和 GPQA-Diamond 测试中显著领先。

3、通义千问：阿里开源国内最强代码模型

通义千问系列（Qwen）是由阿里巴巴集团旗下达摩院开发大语言模型系列。2023 年，阿里开源第一代模型 Qwen 1.0；2024 年 2 月发布 Qwen-1.5，同年 7 月推出 Qwen 2，并于同年 8 月进一步拓展模型矩阵，发布面向数学、音频及视觉领域的 Qwen2-Math、Qwen2- Audio 以及 Qwen2-VL，9 月更新过渡版本 Qwen2.5；2025 年 4 月，Qwen3 系列大模型正式发布，其中包括 Qwen3-235B-A22B 版本。7 月 22 日，阿里巴巴对该 235B-A22B 版本进行了优化升级，推出 Instruct-2507 新版本。7 月 23 日，阿里巴巴正式发布了对标 Claude 4 的 Qwen3 Coder 编程模型。Qwen3 Coder 在多个编码基准测试中表现优异，展现出超强的代码生成与模型能力，在代理编码、浏览器应用和工具调用三大指标获得出色成绩，性能得分媲美 Claude Sonnet 4。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）