2025年科技行业深度研究：大模型后训练，中美路径与商业闭环

来源：华泰证券
发布时间：2025/12/04
浏览次数：232
举报

相关深度报告REPORTS

科技行业深度研究：大模型后训练，中美路径与商业闭环.pdf

科技行业深度研究：大模型后训练，中美路径与商业闭环。全球主流大模型集中于中美。据ArtificialAnalysis数据，美国头部模型厂商包括OpenAI、xAI、Anthropic与Google；国内DeepSeek、阿里、智谱、Kimi与MiniMax较为领先。由于国内高性能算力受限，在同样强化学习+后训练范式下，海外模型偏向规模扩展，而国内擅长架构优化。投资建议上，把握算力、存储、电力、应用四个方向，我们认为：1）大模型产业的基座是算力。2）随着多模态模型的普及，存储需求同步提升。3）电力是算力的配套，是大规模集群上线的前提之一。4）AI应用是商业化落地的关键。与市场不同的观点1）中美大...

与市场不同的观点

#1：中美大模型走出了差异化的发展路线

我们认为，市场以模型跑分来衡量国内外大模型技术孰优孰劣，是对国内算力供给约束的误读。海外依托高密度算力把后训练与强化学习做大做深，更易拔高长尾任务基准分；国内面临算力供给不足，并非技术不行，而是主动转向差异化路线：以 Attention 本质优化、 MoE 稀疏化、长上下文工程重构，追求单位算力的有效产出。因此，跑分并不构成统一锚；决定路径的变量是算力结构而非研究能力，分化由此形成并将延续。海外路径正将算力重心移向后训练与推理，国内路径在算力约束下押注架构与算法精修。 xAI 以 Scaling Law 2.0 为纲，围绕后训练+强化学习+算力扩张迭代 Grok。而在算力供给差距下，国内头部厂商聚焦 Attention 本质优化与 MoE 稀疏化以换取训练推理效率： Qwen3-Next 在 Transformer+MoE 框架内引入“75%线性注意力+25%传统注意力”的混合注意力机制，显著提高长上下文与大参数场景的效率。DeepSeek V3.2 以 DSA(动态稀疏注意力)重构算子与内核，API 输入/输出成本相比上一代模型约-50%/-75%。

#2：AI 应用的转折点或将到来

市场多认为 AI 应用大规模落地仍远；我们认为时间点正在接近，电商等高频垂类具备先行条件。OpenAI 为代表的头部厂商研发重心由底层能力转向应用与商业化：统一模型提供一致能力底座，Pulse 把模型从被动问答推进为主动智能体，ACP 对话内结账打通“推荐-下单-履约”，叠加 Apps SDK 与 MCP 的标准化接入与分发，以及与 Shopify、Etsy 等合作扩展生态，“对话即入口、即时结账”的工程与流量前提已具备。商业化抓手成形、需求侧启动。OpenAI Pulse 引入异步推理，使 Agent 在用户离线时持续分析与生成，算力需求由“交互次数”转向“在线 Agent 数量”。在 2025 年 10 月 OpenAI 开发者大会上，官方把 ACP 对话内即时结账确认为生态核心，Apps SDK 与 MCP 提供接入、控制与富交互能力；其后宣布与 Salesforce、Walmart 合作扩展生态。据 The Information 数据，OpenAI 2030 年营收预期上调至约 2,000 亿美元，结构从订阅/API 拓展至 Agent 与新产品。国内侧，阿里 Qwen 推进多模态与 2B 落地；据云栖大会 2025 主题演讲，百炼平台模型日均调用量一年增约 15 倍，阿里云 FY26Q1 云业务收入增速 25.8%。我们认为，“统一模型+Pulse+ACP”已将应用从“能用”推进到“可经营”，电商垂类具备流量、闭环与支付三要素，转折点正在逼近。

#3：数据标注的重要性被低估

市场低估标注价值，海外龙头营收与客单价已给出明确反证与强力证据。市场认为“数据标注技术含量低、价值量不高”，我们认为，高质量标注是模型训练的关键投入。据 TapTwice Digital 数据，ScaleAI 收入由 2022 年 2.5 亿美元升至 2023 年 7.6 亿美元、2024 年 8.7 亿美元；据路透社信息，SurgeAI 在 2024 年营收超过 10 亿美元并实现盈利，单笔合同与客单价多在八位数至九位数美元区间；据 TechCrunch 信息与 Forbes 数据、Sacra 数据，2025 年 9 月，Mercor 年化收入快速逼近 4.5 亿美元，2025 年上半年录得净利润约 600 万美元。高收入与高客单价共同说明标注价值被系统性低估。需求扩张叠加供给演变，行业空间与议价能力同步抬升。据 Mordor Intelligence 数据，全球 AI 数据标注市场规模预计自 2025 年约 19 亿美元增至 2030 年近 55 亿美元，年复合增长率超过 20%。驱动来自更高 LLM 性能需求、基于 LLM 的 Agent 数据、机器人与自动驾驶感知数据、以及医疗保健与金融科技等垂直场景。供给侧出现结构变化：客户对数据隔离与供应链独立性的偏好增强。2025 年 6 月，Meta 以战略入股方式取得 Scale AI 49%股权后，部分大型实验室为降低信息外泄风险倾向选择与大型互联网公司股权关系更疏的独立标注方，Surge AI 承接相关迁移并实现业务跃升。我们认为，高质量标注决定模型能力上限与商业化效率，在需求与结构性变化共同作用下，行业渗透率与定价权仍有提升空间。

中美两国持续引领大模型迭代

全球主流大模型集中于中美，两国头部厂商或长期占据主导优势。基于 Artificial Analysis 的数据与模型智能指标观察，当前头部模型整体由美国阵营领跑，海外最具代表性者为 OpenAI、xAI、Anthropic 与 Google；曾在开源方向表现突出的 Meta，受 Llama 4 系列推进不顺等因素影响，模型性能阶段性落后。国内方面，从模型性能维度评估，DeepSeek、 Qwen（阿里系）、智谱模型位居前列，Kimi 与 MiniMax 等亦处于国内较为领先的行列。腾讯、百度的模型没有被纳入排行榜单，但其模型依然各有特色。我们认为，上述格局反映了中美在基础模型与工程化推进上的综合优势。客观看待大模型幻觉与排行榜结果。OpenAI 论文《Why Language Models Hallucinate》指出，模型幻觉源于训练与评估目标错位，反映当前“刷分”现象背后的机制。论文显示，现有训练体系往往奖励模型在不确定时仍作出回答，而非承认“不知道”，导致模型更倾向 “猜测”而非求真。幻觉因此并非偶发性错误，而是统计学习以语言分布为目标的自然产物，与事实正确性并不等价。要减少幻觉，需要在评估机制上转向激励模型表达不确定性、惩罚误导性回答，而非单纯追求更高得分率。我们认为，这一机制偏差解释了部分模型评测得分高但实际体验不佳的原因，反映了模型能力与真实可用性间的结构性落差。不过，当前阶段，大模型排行榜依然是直观对比不同模型性能的较好选择。

Google 当前拥有较为全面的全栈模型软硬件能力，其他玩家强化补短。据 Artificial Analysis 数据，以四维能力矩阵系统评估全球大模型主要竞争者的能力与定位现状，框架涵盖最底层的硬件支撑、其上的云服务能力、进一步的技术模型能力以及面向终端的顶层应用四个维度。从现阶段表现看，Google 在上述各维度的能力布局相对均衡且覆盖面广，体现为底层自研硬件（TPU 系列）到应用的端到端一体化优势。相对而言，其他玩家也在逐步补齐短板，如 OpenAI 在底层定制化硬件方面暂处于落后位置，但是据路透社信息，OpenAI 已宣布与博通合作开发新一代 ASIC 芯片，以期强化算力与成本控制的基础能力；国内 DeepSeek V3.1 及之后系列、智谱 GLM 4.6 在 Day0 即适配了国产芯片。我们认为，当前大模型玩家格局呈现“Google 更全面、其他厂商强化补短”的阶段性特征。

Google 在多模态模型领域的综合实力突出，技术积累构筑长期竞争壁垒，实现多点开花。对比海外主要厂商，OpenAI 以文本生成和图片生成为核心，并拓展至实时语音及视频生成（Sora 系列），但产品迭代节奏相对分散，如 Sora 于 24 年 2 月发布，直到 12 月才上线， 25 年 10 月更新 Sora 2；Anthropic 聚焦纯文本及部分视觉理解，多模态生成能力有限；xAI 同样以文本生成为主，尚未正式发布视频生成模型。相比之下，Google 依托多模态融合及跨领域研究的深厚储备，具备系统化的模型开发与算力调度能力，图像（Gemini Image 系列）、视频(Veo 系列）、机器人（PaLM-E、Gemini Robotics 系列）多点开花。我们认为， Google 的多模态布局覆盖面广，技术底座稳健，为后续模型代际跃迁奠定基础。 Gemini 3 作为 Google 多代技术积累的集中释放，验证预训练与后训练仍具显著提升空间。回顾迭代节奏，Gemini 1 以原生多模态与长上下文能力扩大模型可处理的信息类型与规模； Gemini 2 进一步奠定面向复杂任务的 Agent 能力框架，带来更高质量的推理与任务分解。在此前提下，Gemini 3 实现多模态理解、Agent 能力与 Coding 能力的全面释放，构成更成熟的能力体系。据 Google 官网信息，Gemini 团队在预训练阶段取得阶段性跃升，未呈现外界担忧的规模化受限迹象。与此同时，包括强化学习在内的后训练仍具进步和改进空间。两条路径共同塑造了 Gemini 3 的综合性能进展。Gemini 3 Pro 在多模态理解和生产力应用场景表现突出，其中 Vending-Bench 2 基准显示，其在长时序运营模拟中能够保持稳定的工具调用与决策节奏，实现更高回报且未偏离任务目标。

Google 前期在模型发布节奏上较慢，主要源于大型企业内部的结构特征，目前阵痛期已过。过去两年，Google 模型迭代速度不及 OpenAI（2024 年 9 月员工 3000 人以上）/Anthropic （2025 年 5 月员工 1300 人左右）等初创公司，原因在于其公司人员规模大（截至 25Q3 共有 190,167 名员工）、内部多条业务线并行、决策链条较长，导致产品落地周期相对延后。然而，这种节奏背后体现出研发体系的系统化与安全审慎。一旦内部多项目成果集中兑现，往往能形成“多点开花”的局面，带来技术与产品层面的显著突破。我们认为，Google 在大模型迭代上的滞后并非能力不足，而是战略稳健与组织复杂性使然，后续一旦节奏提速，其潜在创新爆发力值得关注。

Transformer 架构依然主流，Diffusion 值得关注

当前全球大模型仍以 Transformer 的 decoder-only 架构为核心主流。尽管近年来陆续出现如 Mamba、KAN 等新型网络结构，但尚未在工程实践中形成主导地位，Transformer 体系依旧占据核心位置。我们认为，在可预见阶段内，Transformer 仍将是大模型研发与优化的基础框架，其生态与工具链优势将继续巩固主导地位。

我们认为，未来仍可能出现替代 Transformer 的新型架构。尽管 Transformer 自 2017 年提出以来已成为主导范式，但其真正获得全球关注与验证是在 2023 年底 ChatGPT 问世之后。回顾这一历程可以发现，技术范式的更替往往具有滞后性，新的架构或已在研究阶段出现，只是尚未进入广泛应用周期。我们认为，随着模型规模、算力利用和推理方式的进一步演进，未来在特定时间点上，或将出现性能与效率兼备、并能超越 Transformer 的新一代主流架构。 Diffusion 架构正被重新审视，其在生成领域的应用边界正逐步扩展到文本领域。Diffusion 架构本身并非全新技术，主要用于图像与视频生成。2024 年初 Sora 的发布，展现了 Diffusion 与 Transformer 结合的潜力，显著提升了视频生成的一致性、分辨率及时长表现。25 年 5 月，Google 首次尝试将 Diffusion 算法用于文本生成，发布 Gemini Diffusion 预览版，字节随后也推出 Seed Diffusion 以跟进相关方向。Diffusion 的优势在于 Token 生成速度快（字节 Seed Diffusion 专门用于代码生成，其推理速度达到 2,146 token/s，比同等规模的自回归模型快 5.4 倍），且生成后可进行精细化修改，而 Transformer 基于 Next Token Prediction 的生成方式则缺乏这种可回溯调整能力。我们认为，尽管 Diffusion 能否取代 Transformer 成为主流尚待验证，但其在头部厂商中的探索已具前瞻意义，值得持续关注。

Scaling Law 2.0 下，中美模型迭代的差异化路径

Scaling Law 2.0 含义更加丰富，数据、算力持续攀升

“Scaling Law”作为 Transformer 体系的核心逻辑，正从单一阶段演进至多阶段范式。早期的 Scaling Law 主要聚焦于预训练阶段，通过扩大模型参数、数据规模、算力规模实现性能提升，可称为 1.0 阶段；而自 2024 年 9 月 OpenAI 发布 o 系列模型以来，强化学习被系统性引入后训练流程，标志着 Scaling Law 进入 2.0 阶段，即在后训练环节继续扩大算力与数据投入，使模型在强化学习中形成可扩展的能力增益。进一步地，在推理阶段，模型通过思维链（Chain of Thought）方式开展推理，用户可在实际使用中使用更多算力以延长思考时间、生成更多 token，在推理中充分释放已习得的强化学习能力。我们认为，这种从预训练到后训练再到推理端的全链路扩展逻辑，构成了当前大模型性能演进的主线框架，也是 2025 年黄仁勋在 GTC 大会上所强调的关键趋势。

MoE 之后，推理模型成为主流选择

头部大模型整体呈现推理强化与 MoE 并行的双特征趋势。具体看，在混合专家（MoE）架构，便于沿参数规模规律扩展（Scaling Law）潜力，同时推理时按路由仅激活部分专家，降低单位开销，兼顾效率与性价比，由此成为头部模型实践的优先选项。2024 年下半年，随着 OpenAI 的 o 系列“推理模型”在预训练后引入强化学习等后训练以纠偏优化，推理阶段进一步给予更高算力与更长思考时间，以换取复杂任务上的性能改进。我们认为，推理阶段的资源调度与 MoE 的扩展效率将继续支撑性能提升。

大模型训练数据量持续提升

训练数据 Token 规模持续走高。据 Artificial Analysis 统计，典型开源模型的训练数据常见在 10-15 万亿 tokens，被视为可免费获取并高质量清洗后的网络数据量级。头部厂商通过新增标注与合成数据等方法持续扩容训练数据 tokens，新近模型的训练 tokens 继续上行：例如阿里 Qwen 系列由 18 万亿（24 年 9 月 Qwen 2.5）提升至 36 万亿（25 年 4 月 Qwen 3），Meta 在训练 Llama 4 Scout 时引入部分社交数据，使总体训练数据约达 40 万亿。我们认为，随“垂类”数据与新标注数据的不断累积，训练 tokens 仍将增加，且从模型泛化性和性能表现来看，OpenAI、Google 等头部模型的训练规模或高于公开口径。

训练算力与训练成本保持快速增长

从全球前沿模型的训练趋势来看，算力投入的增长仍是推动大模型性能演进的核心动力。根据 Epoch AI 在《Training Compute of Frontier AI Models Grows by 4-5x per Year》中的测算，2010 年至 2024 年间，具代表性的前沿模型训练所需算力的年均增长倍数约为 4-5 倍。这一趋势在主要科技企业的旗舰模型中表现一致，显示出业界对算力扩展的持续依赖。值得注意的是，最头部的语言模型的增长趋势更快，在 2017 年 6 月至 2024 年 5 月期间，其增长速度高达每年 9 倍。从 2025 年发布的新前沿模型来看，仍然没有放缓。总体判断，在当前阶段，算力仍是大模型能力演进的底层约束与增长引擎，其年均 4-5 倍的扩张速度构成了行业发展的核心节奏。

从训练成本趋势来看，前沿模型的资金投入正快速攀升。根据 Epoch AI 的研究《How Much Does It Cost to Train Frontier AI Models》，2016-2024 年中具有代表性的前沿模型训练成本年均增长约 2.4 倍（区间为 2.0-3.1 倍），若按云端算力租用价格计算，增速约为 2.6 倍。当前训练成本结构中，AI 加速器硬件与研发人力支出占比最高，分别约为 47-67%与 29-49%。若这一增长趋势延续，预计至 2027 年前沿模型的单次完整训练成本或将达到十亿美元量级。我们认为，训练成本的持续攀升将进一步抬高进入壁垒，强化头部厂商的领先优势，同时促使行业在硬件能效、算法效率及架构创新方向加速突破，以在性能与成本间寻求平衡。

模型性价比提升的趋势不变

大模型 API 价格延续下降，但未发生“智能性-价格”倒挂现象。当前看，各家在新模型发布后通常同步下调 API 费用，整体价格呈持续下行态势；从“智能性-价格”关系看，智能性更强的模型定价仍更高，尚未出现高智能却更低价的倒挂情形。我们认为，随着模型效率迭代与供给增加，价格下行趋势仍将持续。

Scaling Law 2.0 下，中美模型迭代的差异化路径

海外：xAI 持续践行“大力出奇迹”，紧抓后训练和强化学习

Scaling Law 2.0 以“后训练+强化学习”为核心路径，Grok 迭代验证该方向。围绕 xAI 的发布节奏可见 Scaling Law 侧重的迁移：Scaling Law 1.0 阶段，对应 xAI 自 Grok 2 到 Grok 3 的迭代，主要通过将预训练算力扩大约 10 倍带来性能跃升；Grok 3 的推理模型标志着 Grok 模型进入后训练阶段；至 Grok4 发布，其后训练（Reasoning）相较 Grok3 再度将算力放大约 10 倍，使得后训练算力需求接近预训练。从目前头部模型迭代进度看，后训练的算力需求还有可能继续增加。据 xAI 官网，Grok 4 依托 20 万卡级别的 Colossus 大规模集群进行训练，因此，持续扩大后训练的模式与海外更高密度算力核集群禀赋相匹配。我们认为，Scaling Law 2.0 体现出算力重心由预训练向后训练与推理环节迁移，并对高密度集群供给提出更高要求。 Grok 4.1 在强化学习奖励范式上引入 Agent 模型奖励，并继续在后训练算力上有数量级提升。Grok 4.1 延续“预训练+强化学习”的总体路径，但在后训练环节进行了关键范式调整。据 xAI 官网信息，本次迭代沿用了 Grok4 的大规模强化学习基础设施，并针对强化学习中不可直接验证的奖励信号进行了优化，采用具备 Agent 推理能力的模型作为奖励模型，使系统能够实现自动化评估与响应迭代。Grok4.1 在偏好度测试中达到 64.78%，呈现出更符合用户交互偏好的输出特征。xAI 训练团队在 X 平台亦指出，其后训练强化学习规模相较 Grok4 扩大了一个数量级，结合更强推理能力的奖励模型，使模型在真实对话偏好学习、自主评分与反馈循环中持续改进。

OpenAI 在后训练 Scaling 领域或也进入重投入阶段。尽管 OpenAI 未公开其在后训练阶段的具体 Scaling 进展，但从“Stargate（星际之门）”项目的规划细节与算力布局来看，其在后训练方向的资源投入已具备显著规模。Stargate 项目的算力规划高度完善，体现出 OpenAI 对后训练阶段的重视程度，以及为实现 Scaling Law 2.0 提出的“后训练-强化学习” 体系所需的基础设施支撑。我们认为，作为后训练 Scaling Law 2.0 理念的提出者，OpenAI 当前的研发重点同样正在从模型规模扩展转向后训练与推理环节的算力优化与结构化部署，进入了重投入阶段。

国内：阿里、DeepSeek 创新性架构优化，抓住 Attention 本质

国内算力受限背景下，模型迭代更依赖架构层创新。相较于海外依托 NVIDIA 最新 GPU 构建 10 万至 20 万卡级超大集群的条件，国内在算力基础设施上仍存在差距。在此约束下，基础模型的发展更需通过架构优化提升效率。从当前技术演进看，Transformer 架构在中短期内仍将是主流，其核心算法 Attention 机制（通过计算 Tokens 间相关性以预测最优输出），构成了模型性能的关键环节。因此，国内头部厂商普遍聚焦于 Attention 层面的优化与创新，其中以阿里的 Qwen 系列与 DeepSeek 的模型为典型代表。我们认为，在算力约束难以短期突破的情况下，架构创新与算法精炼将成为国内基础模型竞争的主要方向。

Qwen3-Next 延续 Scaling 大方向，通过 Attention 优化提升长文本与大参数效率。阿里为进一步增强模型在长上下文与大规模参数条件下的训练及推理效率，其 Qwen3-Next 在保持 Transformer 与 MoE 总体框架不变的前提下，主要改进了：1）引入“75%线性注意力+25%传统注意力”的混合机制，在兼顾长文本效率与记忆精度间取得平衡；2）显著提升稀疏化程度，80B 总参数仅激活约 3B，激活率约 3.7%，推理效率明显改善；3）扩大 MoE 专家数量至 512 个，为前代的两倍；4）采用多 Token 预测机制，提高训练与推理并行度。我们认为，Qwen3-Next 的创新体现出在 Scaling 框架下通过细粒度结构优化实现性能与成本的再平衡，这类“细节创新”或将成为后续国内大模型迭代的主要演进路径。

DeepSeek V3.2 引入 Dynamic Sparse Attention，训推效率再次有了大幅提升。 DeepSeek V3.2-Exp 在性能上与上一版 V3.1-Terminus 差距不大，并将 V3.2 定位为“迈向新一代架构”的中间步骤。V3.2 最大的进步体现在 DSA（Dynamic Sparse Attention）的引入，模型训练与推理效率显著提升，相比上一代模型 API 输入与输出成本分别下降约 50% 与 75%以上（推理成本）。DSA 的核心优化集中在 Attention 机制层，通过算子级与内核级的工程化重构，在长上下文任务中显著压缩训练与推理开销，同时尽量保持模型性能稳定，延续了以架构精修换取综合效率提升的技术路线。我们认为，该版本体现出在算力约束下的务实取舍，既为后续架构演进奠定技术基础，也展示出国产模型在底层优化方面的持续积累。

DSA 实现长上下文推理的高效稀疏化。V3.2-Exp 在原 V3.1 架构基础上新增的结构改动为 DSA，旨在显著提升长上下文的训练与推理效率。其基本思路是采用“先粗筛、后精算” 的双阶段注意力机制：通过一个轻量索引器（Indexer）先对历史 tokens 进行快速筛选，选出最可能相关的 Top-k 候选，再由主注意力模块进行精细计算，从而将复杂度由 O(L²)降至 O(Lk)（k≪L），文本越长节省越显著。索引器虽维持 O(L²)复杂度，但因采用更少注意力头、轻量化 FP8 计算及优化实现，使端到端推理显著加速。我们认为，DSA 标志着国内 Attention 机制从全密集计算向动态稀疏推理的转折，是长上下文方向的重要突破。

Kimi K2 模型在整体架构上延续 DeepSeek V3 框架，并引入了针对性架构优化。K2 主要改进包括：1）验证在激活参数不变的条件下，单纯提升 MoE 总参数量依然符合 Scaling 规律，训练与验证 loss 持续下降且无过拟合迹象；2）适度减少 Attention head 数量，在保持性能稳定的同时显著降低算力开销；3）仅保留首层 dense 层，其余全部采用 MoE 结构，以改善首层 router 负载不均并提升专家利用效率；4）引入无分组的简化 router，优化计算路径与参数调度；5）将模型参数从 V3 的 671B 提升到 1T；6）引入 MuonClip 优化器，显著提升训练稳定性与收敛一致性。得益于上述改进，K2 在维持与 DeepSeek v3 相当的训练与推理成本下，实现了更低 loss 与更高参数效率。我们认为，K2 的路径体现了国内团队在算力约束下通过结构精修延展 Scaling 规律、提升模型性价比的工程化思路。

推理/非推理模型统一后，模型应用转折点或将到来

GPT-5 确立了行业内模型“统一系统”的方向

GPT-5 以统一架构实现快思与深思的自适应协同，并以路由器按任务动态分配资源。具体而言，体系由基础模型（Main model）承担多数日常问答，深度推理模型（GPT-5 Thinking）处理复杂任务中的长期思考，实时路由器（Real-time Router）依据对话类型、问题复杂度、工具调用与用户意图（如“认真思考”提示）在两类模型间动态选择与切换。路由器持续学习用户信号（如模型切换行为、回答偏好、正确率等）以优化决策，并规划在后续将三者进一步融合为单一模型，以在优化速度的同时提升思考深度与一致性。我们认为，该架构有利于在不同使用场景下兼顾响应效率与推理质量。 GPT-5.1 以自适应推理与细化模型分工提升智能表现与交互体验。GPT-5.1 在延续 GPT-5 统一架构的基础上强化产品化能力，通过 Instant 与 Thinking 双模型分工使日常交互与复杂推理各得其所。Instant 聚焦指令遵循与语境贴合，提升对话自然度；Thinking 通过动态调整思考时间，在深度推理与响应速度间取得更稳妥平衡。据 OpenAI 官网，模型在 AIME2025、 Codeforces 等数学与编程类任务中表现更强，逻辑严谨度提升明显。自适应思考机制使模型可自主判断是否深入推理，使速度与质量兼顾。语言表达趋向简洁清晰，减少技术术语堆叠。个性化调节亦得到增强，新引入 Professional、Candid、Quirky 等语气，并支持对简洁度与情感温度的细粒度控制。生态上，GPT-5.1 将逐步替代 GPT-5，旧版本保留三个月以便用户平滑迁移，API 同步更新至 gpt-5.1-chat-latest 与 gpt-5.1。

GPT-5 提出统一模型架构后，行业迅速跟进，并正成为新一代大模型演进的重要方向。其核心在于将推理模型与非推理模型整合到单一系统中，通过动态调度实现“快思-深思”的连续切换，从而在响应速度与推理深度间取得较优平衡。我们认为，这种统一思路正在改变模型设计逻辑，使“思考层级”成为可调系统参数，而非外部模式选择，并且更加节省模型输出的 token 数。此外，统一模型的一个重要优势在于部署与运维效率显著提升。过去需要分别部署推理模型和非推理模型，而现在只需部署一个统一模型即可覆盖不同任务场景，不仅降低系统复杂度和算力成本，也提升推理过程的连续性与资源利用率。 DeepSeek V3.1 以混合推理架构落地统一模型，实现单体兼容快思与深思。V3.1 版本在一个模型内同时支持思考模式与非思考模式，使“是否推理、推理到何种程度”由系统自动判定；在思维链压缩训练的配合下，V3.1-Think 能以更少的输出 Token 在更短时间内完成复杂任务，同时保持与既有基线相近的性能表现。我们认为，该架构通过内部机制而非多模型切换，在性能与能效间取得更稳定的折中。

Grok 4 Fast 同样以统一模型架构为核心，将推理与非推理模式融合于同一体系内。Grok 4 Fast 依据任务复杂度自动调节思考深度与计算资源，实现响应速度与推理能力的动态平衡，通过强化学习优化智能密度（intelligence density），在保持 Grok 4 同等性能的同时平均减少 40%推理 Token 消耗。统一体系下模型可在实时搜索、代码执行、复杂推理与普通对话间自适应切换，使“快思-深思”形成连续可调的谱系结构。

头部厂商重心开始向应用和商业化生态转移

统一模型属于系统层面的重要创新，但并未改变大模型的底层理论架构。其核心价值更多体现在工程与产品层面，通过体系整合提升推理效率与部署便捷性。我们观察到，在统一系统落地之后，头部大模型厂商的研发重心正逐步由底层模型优化转向上层应用与商业化探索，技术竞争正从模型理论创新转向产品体验与生态建设。 OpenAI 的 Pulse 和购物功能是典型的应用和商业化生态新模式探索，也是 OpenAI 利用其日益增长的周活用户”变现的“第一步”。

Pulse 解决了“模型如何主动地行动”的问题，属于计算密集型服务（compute-intensive service）。Pulse 让大模型从被动响应的工具，演化为能主动理解与推理的智能体（Agent），真正迈向“自驱动”的应用形态。传统 ChatGPT 依赖用户输入触发推理，而 Pulse 引入异步推理机制，能在用户离线时自动执行分析、生成更新与个性化内容。这意味着算力需求不再由“交互次数”驱动，而转向“持续在线的智能体数量”驱动，推理任务的触发频率与时间跨度均被极大延展。结合此前 Deep Research 的经验，这类 Agent 的 Token 消耗较传统模型高出 15-50 倍（参见报告《科技/计算机: Token 推动计算 Compute 需求：非线形增长》，2025 年 7 月 17 日），而 Pulse 的主动推理模式将进一步放大这种差距。从应用与商业逻辑上看，Pulse 的推出意味着 OpenAI 的重心正在由底层架构转向上层生态与商业化探索。一方面，Pulse 通过长期积累的用户上下文，具备构建个性化推荐与广告体系的潜力，使大模型商业化路径从“卖 API”扩展至“用户数据驱动的服务经济”；另一方面，端侧硬件的引入让模型能更深入地嵌入用户日常生活场景，形成“端侧收集+云端推理”的双层闭环，从而进一步扩大算力需求与数据边界。我们认为，统一模型奠定了底层能力的集约化基础，而 Pulse 则代表了从统一模型走向统一智能体生态的关键一步。它使算力的消耗从“响应一次对话”变为“持续感知与主动决策”，为 AI 在个性化推荐、数字助理及端云协同场景中的商业化落地打开了新的空间。

OpenAI 首推“对话内购买”，以协议驱动交易闭环。OpenAI 在统一模型与 Pulse 之后，又推出了 Agentic Commerce Protocol（代理商务协议，ACP），标志其正式将智能体（Agent）能力延伸至商业交易场景。该协议由 OpenAI 与 Stripe 联合开发，旨在让 AI Agent 具备直接执行购买行为的能力，实现从“推荐商品”到“完成交易”的全流程自动化。第一批电商合作伙伴主要为 Shopify（SHOP US）和 Etsy（ETSY US）。 OpenAI 对商户收取少量服务费，但对用户完全免费，且不影响商品价格或搜索结果排序。 “对话内购买”使 ChatGPT 从信息服务工具进一步演化为具备交易执行能力的主动型 Agent 平台。用户可在对话中完成即时结账（instant checkout），无需跳转页面或输入额外信息；而商家则可通过接入该协议直接触达 ChatGPT 的数亿级用户群，在保持自身支付体系与客户关系的前提下参与交易。从系统演进的角度看，Agentic Commerce Protocol 是继统一模型→Pulse（主动推理） →Agentic 生态之后的又一次关键商业化延伸。统一模型提供了智能体的计算基础，Pulse 让智能体具备主动性，而该协议则赋予智能体实际执行力，使 AI 从“会思考”迈向“能行动”。我们认为，这一进展代表 OpenAI 正在把智能体从生产力工具推进为商业行为主体， AI 产业的价值链由算力与模型竞争，进一步拓展至支付、交易与用户生态层面。

OpenAI 开发者大会再次强调以 ACP 对话内即时结账为核心，贯通需求发现到用户支付的商业闭环生态。10 月 6 日 2025 年 OpenAI 开发者大会上，OpenAI 再次明确在支付侧引入 Agentic Commerce Protocol 的“对话内即时结账”，并强调不止电商，后续各类接入 ChatGPT 的 App 均可能通过 ACP 实现变现。对话即入口、结账不外跳，已订阅用户可在对话直接登录，未来支持多种变现，使交易链路由“触达-体验-转化”在同一会话内闭合，显著降低流失点并便于归因与运营。我们认为，ACP 将会话从信息交互延伸为交易承载，提升单位会话的转化效率与可运营性，成为商业化的关键抓手。

Apps SDK 与 MCP 提供商业化所需的接入、控制与富交互能力。Apps SDK（预览）基于 MCP，前后端完全可控，支持数据接入、动作触发与富 UI（内联/画中画/全屏/Widget）； “Talking to Apps”使应用可反向暴露交互上下文给模型，强化对话-UI-动作闭环。据发布会信息，年内将开放提交审核与目录，开发者指南草案已发，达标上架、优秀者可获更多推荐位。我们认为，标准化接入与目录化分发共同构成商业化基础设施，帮助开发者更好的接入到 ACP 环境中。示例场景在多类应用中展示从体验到交易的闭环可行性。开发者大会上展示了 ChatGPT 和多个公司/产品的集成用例，如 Coursera 可在对话中承载“视频+讲解”，Canva 支持从命名到海报/一键转 Pitch Deck 并继续在对话中编辑，Zillow 完成地图检索/筛选及跨工具回答。上述体验均可与 ACP 衔接，在同一对话内完成从功能试用到下单/订阅的转化。我们认为，内容、设计与本地生活等高频场景更易率先跑通闭环路径。

开发者大会之后，OpenAI 显著加速软件生态的构建步伐。除了在 10 月 6 日开发者大会上宣布的 Coursera、Zillow、Figma、Spotify 等一系列软件合作伙伴外，OpenAI 加紧与其他软件应用厂商的合作，10 月 14 日，宣布与 Salesforce 合作，实现在 ChatGPT 里使用 Salesforce 产品，并能够使用 ACP 支付协议完成支付；同日宣布与 Walmart 达成合作，共同打造新型购物体验，通过 Chatgpt 实现购物并即时结账。OpenAI 的战略中心已经逐步向应用和生态转移，后续或会有更多的软件应用厂商加入。

OpenAI 收入预期显著上修，驱动来自 ChatGPT、API、Agent 与新产品，Pusle/ACP 是重要一环。据 The Information 数据，25Q3 OpenAI 将 2030 年营收由年初预测的约 1,740 亿美元上调至约 2,000 亿美元，2029 年由约 1,250 亿提升至约 1,450 亿；2025 年仍以约 130 亿为基准。结构上，收入来源由 ChatGPT 订阅与 API 扩展至 Agent 与“新产品（含免费用户变现）”。结合 ACP（Agentic Commerce Protocol），平台可在对话内直连交易与支付，形成“推荐-下单-履约”的闭环，一方面 OpenAI 能够有一定 take rate，另一方面有望提升免费用户变现与商户转化。此外，配合通用代理能力、企业级集成与潜在硬件终端等产品形态，OpenAI 收入曲线呈现由单点订阅向多元生态的过渡。Pulse/ACP 或将成为 Agent 化商业闭环的重要抓手，与企业付费、API 用量增长及硬件载体共同构成中期营收弹性的关键来源。

阿里的 Qwen 模型或是国内大模型中全领域布局最为齐全的。Qwen 系列旗舰模型 Qwen3-Max 在综合性能上超越 GPT-5、Claude Opus-4，Coding 与 Agent 两项关键指标进入全球第一梯队；Qwen 形成大规模衍生家族，Qwen3-VL、Qwen3-Omni 与通义万相 2.5 覆盖视觉、音视频与内容生成，百聆语音面向客服、电商等刚需付费场景；与 Nvidia 在 Physical AI 的合作或拓展至机器人模型。国内 C 端商业化稍慢于海外，阿里通过模型布局推动 2B token 上量和商业化加速。在研报《科技/计算机: 多模态大模型和应用奇点将至》中，我们得出了国内 2C 商业化（尤其是 AI 原生应用）稍慢于海外的结论。因此，国内商业化方面，2B 是大厂的主要选择。据云栖大会 2025 主题演讲，近 2-3 个月需求端 Token 消耗实现倍增，伴随模型能力提升与 Agent 类应用出现，阿里云百炼平台过去一年模型日均调用量增长约 15 倍，反映开发者与企业侧的活跃度提升。从阿里云业务来看，自 2024 年底以来，一直呈现较快的收入增速，最新的 FY26Q1 云业务收入增速达到了 25.8%。后续随着 Qwen 多模态模型持续扩展，阿里 token 调用量有望持续增长，最终有望带来商业化加速。千问 APP 以 All-in-One 形态强化阿里进军 C 端 AI 入口的战略定位。25 年 11 月，千问 APP 正式公测上线，依托 Qwen3 模型作为能力底座，为用户提供集聊天、任务处理与多场景服务于一体的 AI 助手，并开放免费体验入口。产品形态上，千问 APP 旨在成为统一的 AI 交互枢纽，未来将持续覆盖办公、地图、健康、购物等日常场景，使模型能力在更广泛的生活链路中可直接调用。过去三年阿里团队持续打磨 Qwen 模型能力，本次应用落地意味着模型能力向 C 端进一步靠近，并通过移动端入口提升触达效率。随着模型迭代及使用场景扩展，千问 APP 有望成为阿里在 C 端 AI 生态中的关键承载入口，并推动其大模型能力的规模化应用。

模型 Agent 能力：海外注重基模，国内偏向应用

海外：旗舰模型执行复杂任务的时长持续Scaling

海外旗舰模型能执行复杂任务的时长不断提高。METR 提出了“50%任务完成时长阈值” 概念，指模型在某任务族上以 50%成功率可独立完成的任务，其对应的人类完成用时。研究以 RE-Bench、HCAST 与 66 个新增任务为样本，先计时具备相关经验的人类用时，再将模型在不同时长下的成功率拟合为曲线，取成功率 50%点作为指标。据 METR 数据，模型在数分钟内可完结的短任务上成功率接近满分，但当任务持续跨越数小时，成功率显著下降，限制因素主要在长链路执行与错误恢复能力。前沿模型对应阈值约在 50 分钟量级，且过去六年呈指数提升，翻倍周期约 7 个月。其中 OpenAI GPT-5、Anthropic Claude Sonnet 4.5、xAI Grok-4 时长能达到 1-2 小时。

主流 agent 产品倾向选用海外旗舰模型。市场上面向复杂业务流程的 agent 系统，多采用海外基础模型作为核心底座，偏好具备长时执行与稳定规划能力的版本；这一取向与图表 35 中对 METR“长执行时间能力”的强调相互呼应，反映出在长链路、强工具调用与跨代理协同的场景中，工程团队更关注稳健性与一致性，而非单点指标的提升。 Genspark 以 Claude 为新架构底座以适配多智能体。据 Genspark 官方，团队在测试多种模型选项后，明确选择 Claude 作为新一代系统基础，主要看重其在任务规划与链式推理上的稳定表现，契合“混合多智能体”的编排需求；同时，Genspark 并未排他，复杂任务处理亦合作接入 OpenAI 的旗舰模型，以覆盖更广的指令理解与工具使用场景。 Manus 采取多供应商并行并接入 OpenAI 旗舰。据 Manus 帮助中心与产品说明，其支持 Anthropic、Google、OpenAI 等多家模型提供商，结合路由与成本/质量权衡以适配不同任务强度；在复杂、长链任务中，Manus 可同时利用 Claude 与 OpenAI 旗舰模型，以提升跨步骤协同与结果一致性。 “长执行时间能力”与产品选型形成双向印证。结合前文 METR 数据，能维持更长执行与控制的模型在代理任务完成率、规划一致性与容错上的表现更具应用价值；与之对应，主流 agent 产品实际选型更易倾向此类海外旗舰模型，并在多智能体、工具调用与监控校验上形成工程闭环。我们认为，这一趋势将延续，并促使厂商围绕长时控制、可观测与安全约束持续迭代。

国内：智谱 AutoGLM 应用开始占领用户心智

智谱 AutoGLM 较早占据 Agent 应用生态位，占领用户心智。AutoGLM 在 Agent 应用路径上实现从“会用手机→跨端无人驾驶→沉思推理闭环→云端常驻执行”的递进,兼顾方法论（WebRL、沉思强化学习、端到端异步 RL）、评测证明（Phone/Web/GUI SOTA）与产品可达性（插件、内测/公测到 API 与生态），在设备操控智能体与“边想边干”能力上展现全球级领先特征，率先占领用户心智。第一阶段：AutoGLM 奠定“能用手”的范式。AutoGLM 以“基础智能体解耦中间界面+ 自进化在线课程强化学习框架”为底座，核心技术 WebRL 缓解任务规划与动作执行拮抗、训练任务与数据稀缺、反馈稀少与策略漂移等问题，并以自适应策略实现稳定迭代。据 AndroidLab 与 WebArena-Lite 评测，AutoGLM 在 Phone Use 与 Browser Use 上相对 GPT-4o、Claude-3.5-Sonnet 取得优势；Web 端经“智谱清言”插件对外发布，手机端开启安卓内测，定位于 L3 工具能力，服务 GLM-OS 通用计算方向。第二阶段：跨端执行与无人驾驶上网产品化。升级后的 AutoGLM 可自主执行 50 步以上长链路，支持跨 App 任务、短口令与“随便模式”，并在现场以语音指令完成群发红包与手机远程指挥电脑演示；Web 端“全自动”上网覆盖搜索、微博、知乎、GitHub 等数十站点，面向 C 端启动百万内测与“亿级 APP 免费 Auto 升级”，开放标准化 API 试用；同步推出 PC 侧 GLM-PC，围绕会议替身、文档处理、指定平台检索总结、远程与定时操作、隐形屏幕等能力展开，但当前仍需较精准指令。第三阶段：沉思能力让“边想边干”成为闭环。智谱发布 AutoGLM 沉思，技术路径为 GLM-4 →GLM-Z1→GLM-Z1-Rumination→AutoGLM，强化学习推动模型形成自我批评、反思与长程推理，并与环境感知与工具使用耦合。沉思功能已在智谱清言网页端、PC 端与 App 免费开放（preview 聚焦 research 场景），推出“虚拟机”形态；部分核心链路与模型于 4 月 14 日开源。第四阶段：评测领先巩固手机/网页/GUI 能力。据 AgentBench 等基准，AutoGLM 系列在 5 个测试环境获得 SOTA；在 Phone Use（AndroidLab 与 AndroidWorld）中，AutoGLM-Phone 任务成功率较此前方法提升逾 20%；在 Browser Use 中，AutoGLM-Web 相对 GPT-4o 与 Claude-3.5-Sonnet 表现更优；在 GUI 智能体方向，自研 GLM-PC（CogAgent）以 9B 参数在多榜单达到 SOTA，超越 GPT-4o+UGround、Claude Computer Use 等更大规模方案。上述模型计划开源并陆续上线 MaaS 平台。第五阶段：AutoGLM 2.0 成为云端 Agent 执行助手。AutoGLM 2.0 采用“Agent+云手机/ 云电脑”范式，不占用本地设备与屏幕，突破硬件限制（安卓/iOS 均可用）并支持“定时任务”等常驻执行；以 GLM-4.5/GLM-4.5V 驱动，覆盖推理、代码与多模态。在生活侧可一句话操作美团、京东、小红书、抖音等高频应用（点外卖、订机票、查房源）；在办公侧可跨站完成检索、撰写、视频/PPT/播客生成与内容发布；执行能力封装为 API，延展至眼镜、家电等硬件。据 Device Use 基准，AutoGLM 优于 ChatGPT Agent、UI-TARS-1.5 与 Claude Sonnet 4，并在 ComputerRL、MobileRL、AgentRL 中引入多项训练改进以提升稳定性与收敛效率。

多模态领域国内领先，Sora 2 有望再次引发热潮

国内模型厂商在多模态生成领域全球领先

国内在多模态生成领域整体保持领先地位，腾讯在图像、3D 领域领先。当前在多模态生成的主要方向中，国内模型在图像、视频及语音生成等多个赛道均位居全球前列。据 Artificial Analysis 排行榜显示，字节跳动的 Seedream4.0 在“文生图像”领域表现突出，居于领先位置；而根据 LMArena 最新榜单，腾讯 9 月底开源的混元图像 3.0 模型（原生多模态生图模型，官方表示是首个开源工业级原生多模态生图模型。具备常识并能够利用知识进行推理；同时语义理解准确度高，并具备极致美学质感，能生成真实的高质感图片；支持中英文文字生成，长文本文字渲染），已超越 Google Gemini 2.5 Flash Image，位列榜首。此外，腾讯在 3D 模型上同样颇有建树，25 年 9 月发布混元 3D-Omni、混元 3D-Part，使得 AI 3D 建模更具实用性，加速了 3D 生成模型在游戏、打印和 AR/VR 等实际生产流程中的落地应用。

快手、字节、MiniMax 在视频生成领域取得了不错的突破。在视频生成方向，包括“文生视频”和“图生视频”两类任务中，快手、MiniMax、字节跳动以及国内初创企业生数科技、 Pixverse（爱诗科技）等均展现出较强竞争力。其中，快手推出的 Kling 2.5 Turbo 模型登上最新榜单首位，显示出在视频生成质量与效率上的显著突破。此外，在文字转语音（TTS）方向，国内厂商 MiniMax 同样位列全球领先梯队，体现出中国厂商在多模态生成能力上的系统性优势。我们认为，国内科技企业在多模态生成领域的快速追赶与领先，源于其在算力优化、数据工程与模型训练效率方面的协同进步，同时得益于庞大的应用场景需求（短视频、游戏等）与高频迭代机制的支撑。随着产业链的成熟和开源生态的活跃，未来国内模型在视频与音频生成方向的国际竞争力有望进一步增强。

Sora 2 和相应社交 App 的发布，掀起多模态+社交的热潮

OpenAI Sora 2 在物理规律建模、动态一致性和音画同步等方面实现了全面升级。相比前代版本，Sora 2 能够更准确地理解空间关系和时间逻辑，使生成画面在物体运动、光影变化以及角色互动上更贴近现实。其推理能力支持跨镜头叙事和复杂场景控制，能够在不同风格间灵活切换，如写实影像、动画或电影质感。同时，模型具备音频生成能力，可在画面中自动匹配环境声、对白与音乐，从而实现视觉与听觉的深度融合。我们认为，Sora 2 的推出是视频生成领域的重要节点，标志着 AI 从图像生成向“世界级模拟器”方向再一次的演进。

基于 Sora 2 模型，OpenAI 推出了面向消费者的 Sora 应用，掀起多模态+社交浪潮。提供视频创作、角色嵌入（cameo）、内容重混等功能。用户可通过自然语言指令生成并编辑视频，也可将自身形象或音频嵌入虚拟场景中，实现个性化内容创作。App 内集成了安全与合规机制，包括内容审查、家长控制与青少年使用限制，以防止生成内容滥用。Sora App 目前以邀请制形式在美国和加拿大上线，计划逐步开放更多市场。我们认为，该应用展示了生成式视频模型的消费级落地路径，有望推动短视频、创意设计与数字人等场景的普及化应用。 Sora App 的商业化路径将逐步清晰。Sam Altman 在官方博客中指出，团队正在思考如何通过视频生成实现可持续盈利。为平衡创作生态与商业模式，OpenAI 计划与拥有角色版权的内容方建立收益共享机制，即当用户在生成内容中使用受版权保护的角色时，平台将向相关版权所有者分配部分收入。这一机制仍处于试验阶段，具体方案将通过持续的实践进行优化。通过引入版税分成机制，OpenAI 有望建立一个兼顾创作自由与知识产权保护的内容生态，让“7 亿周活”和 AI 视频社交生态相互成就。

标注/合成数据都是后训练时代重要的数据来源

数据标注作为监督学习的关键基石，直接决定模型可学性与可靠性与应用成效。数据标注（亦称数据注释）是以语义标签标记原始数据（图像、文本、音频、视频等），使机器学习模型能够理解并从样本中归纳规律。在监督式学习中，带标签样本构成训练时的“事实真相”，因而标注成为人工智能开发的基础环节。实践中，图像可标注物体类别或位置，文本可标注情感或命名实体。高质量标签有助于算法识别模式并提升预测准确度，其作用类似对儿童进行指认式教学，帮助模型形成对世界的表征。若缺乏可靠且充足的标注数据，即便较为先进的系统也难以稳定运行。人工智能/机器学习应用的普及推动了数据标注行业快速增长。据 Mordor Intelligence 数据，全球 AI 数据标注市场规模将从 2025 年的约 19 亿美元增长到 2030 年的近 55 亿美元，年复合增长率超过 20%。增长得益于对标注数据集不断增长的需求，以提高各行业的人工智能准确性。我们认为，主要驱动因素包括对更好机器学习模型（大语言模型 LLM）性能的需求、基于 LLM 的 Agent 数据需求、机器人数据需求、自动驾驶汽车的激增（需要大量的标注图像/激光雷达数据集），以及医疗保健/金融科技等垂类人工智能中标注使用量的增加。

数据标注方法多样，包括内建、众包外包、托管与人工智能辅助自动化。内建标注由企业员工或领域专家完成，适用于医学影像、语言学等需专业知识的场景，质量较高但在大规模下效率与成本承压。众包与外包依托众包平台（Amazon Mechanical Turk、Toloka）或服务商（Appen、CloudFactory、iMerit、Sama 等），以分布式并行提升速度并控制支出，但质量一致性需严格把控；Playment 曾组织超 30 万标注者服务自动驾驶等项目。托管服务由专业团队提供一体化平台与内部质检，配合工具、审核层级和流程，并就本体与标签体系提供建议，降低客户管理负担，如 Appen、Scale AI、Surge AI 等新兴初创公司。自动化与 AI 辅助以预标注+人工校验为主，常见平台含 Labelbox、Dataloop、SuperAnnotate； Tan等在《Large Language Models for Data Annotation: A Survey》指出用 LLM（如 GPT-4）在文本标注与审核上展现潜力，但实际项目仍保留人工闭环以确保准确性。

海外：专业化的数据标注公司是海外大厂首选

海外模型厂商相当程度上依赖专业的数据标注公司来标注大模型相关数据，重要玩家包括 Scale AI、Surge AI 和新兴的 Mercor。

1）Scale AI：被 Meta 收购的明星数据标注公司

Scale AI 以 AI 数据基础设施为核心定位，形成跨行业数据服务体系。公司成立于 2016 年，由 Alexandr Wang 与 Lucy Guo 共同创立，同年进入 Y Combinator 孵化。Scale AI 定位为 “AI 数据基础设施”提供商，主营高质量训练数据标注与管理服务，产品包括人工与软件协同的数据标注平台及数据集管理工具。早期聚焦自动驾驶与机器人领域，提供大规模感知数据标注，后逐步拓展至金融、电商、企业软件及国防等行业。随着大语言模型（LLM）兴起，公司推出 Outlier 平台，招募具备专业知识的人才参与强化学习人工反馈（RLHF）等环节，进一步提升生成式 AI 模型训练质量。我们认为，Scale AI 通过工具体系化与质量控制标准化，构建了在 AI 产业链中的核心数据基础能力。公司客户覆盖科技巨头与公共机构，业务在扩张与调整中保持增长。其主要客户包括 Google、Microsoft、Meta、General Motors、OpenAI 等。自 2020 年起，公司承担美国国防部项目，2022 年获得美国联邦政府总值 2.5 亿美元合同，提供 AI 数据工具服务。2023 年因市场环境调整裁员约 20%，但同年与 OpenAI 建立合作，成为 GPT-3.5 模型微调的核心伙伴，并参与 ChatGPT 训练数据构建。根据 TapTwice Digital 数据，公司收入由 2022 年的 2.5 亿美元提升至 2023 年的 7.6 亿美元，2024 年进一步增至 8.7 亿美元，展现出显著的业务扩张趋势。虽然盈利情况尚未披露，但收入增长体现出其在 AI 生态中的需求稳定性。

资本运作与股权变化推动估值提升，战略引入 Meta 后或导致客户结构变化。2019 年 Founders Fund 向 Scale AI 投资 1 亿美元，推动公司估值首次突破 10 亿美元，进军独角兽行列。2025 年 6 月，Meta 以战略入股方式斥资 143 亿美元收购 49%股权，对应公司估值约 290 亿美元，成为其历史高点。Meta 此举意在借助创始人 Wang 的能力强化 AI 战略，确保高质量训练数据供应，并加速 Llama 等大型模型迭代。然而，Meta 成为大股东后，一些竞争企业产生顾虑，例如 Google 或担心信息泄露而计划终止合作，其他 AI 实验室亦可能减少依赖。

2）Surge AI：收入体量超过 Scale AI 的数据标注公司

Surge AI 以高质量标注与专家化交付持续巩固行业优势地位。Surge AI 成立于 2020 年，创始人 Edwin Chen 具备谷歌、Meta 与推特的机器学习背景，创立初衷是以高质量人类智能提升模型训练效果。公司聚焦高端数据标注，尤其覆盖大模型 RLHF（基于人类反馈的强化学习）等核心训练环节，主张“数据质量决定 AI 上限”。与传统众包不同，其通过智能人才匹配与细粒度能力测评，将具备特定专业背景的标注者分配至相应任务：例如法律类由法律专家评审，文学类由文学专才优化生成质量。现已服务 OpenAI、Google、Microsoft、 Meta 与 Anthropic 等一线实验室。我们认为，专家化分工与过程治理构成其质量壁垒与口碑基础。稳健经营与高客单价共同支撑公司盈利与现金流持续提升。公司自成立起采取自筹资金路径，至 2025 年前未引入外部股权融资，依赖创始人资金与业务现金流实现增长并保持盈利。组织上延续轻资产策略：正式员工约 110 人，联动超过 100 万名全球合同标注者形成弹性产能。2024 年据路透社信息，公司营收超过 10 亿美元并实现盈利，规模高于同期 Scale AI 约 8.7 亿美元。核心收入来自少量但金额较大的长期项目，单笔合同与客单价多在八位数至九位数美元区间，公司在面向头部客户时具备议价能力，并以合同工结构控制固定人力成本。我们认为，高客单价与成本弹性共同强化利润表现与现金流质量。

客户独立性诉求与行业变动正在为 Surge AI 创造结构性增长机遇。在生成式 AI 需求扩张与主要对手出现股权事件的背景下，部分大型实验室为降低信息外泄风险，更倾向选择与大型互联网公司股权关系更疏的独立标注方。如前述，2025 年 6 月 Meta 以约 143 亿美元取得 Scale AI 49%股权，对应估值约 290 亿美元，导致出现客户迁移，Surge AI 承接相关需求。我们认为，客户对数据隔离与供应链独立性的偏好，或对于更中立的标注公司利好。资本推进与经营稳健继续推动 Surge AI 估值抬升。在持续盈利基础上，据路透社信息， Surge AI 于 2025 年 7 月与顶级机构洽谈首轮融资，计划募资至多 10 亿美元，估值或由约 150 亿美元提升至 250 亿美元以上。

3）Mercor：从 AI 招聘到 AI 数据标注的成功转型

公司起步于 AI 招聘并迅速转向高端数据标注业务赛道，以人类在环为核心。Mercor 成立于 2022 年末，早期以“AI 招聘”平台自动化简历筛选、面试与匹配；招聘方输入职位需求后，聊天机器人解析要点并匹配候选人。运营中公司观察到 AI 实验室对高质量人工标注需求攀升，遂在成立不久即转向服务模型训练的数据标注与评估，确立从人才到数据供给的一体化路径。打造 Human Data 平台与 RLHF 工具链，形成可复用训练与评估基础。公司推出“Human Data”方案，招募医生、律师、金融分析师、工程师等专家参与微调、评估与人类反馈；同时自研支持人类在环流程的软件基础设施，并增设面向强化学习的工具与数据管道，支持由人类验证的决策反馈（RLHF）。据 TechCrunch 信息，公司还协助客户生成与管理代理智能训练环境所需的数据与人力。我们认为，围绕训练环境的供给布局提升了公司在价值链中的位置。

面向头部实验室提供专家数据，供给格局变化带来窗口。Mercor 曾为 Scale AI 提供合同标注人员，后转为直接竞争。进入 2025 年，据 TechCrunch 信息，因 Meta 入股 Scale AI 并招募其 CEO，部分一线实验室（如 OpenAI、DeepMind 等）基于战略考虑中断与 Scale 合作，需求外溢为新进入者创造空间。公司客户主要为全球领先的 AI 研究机构与科技企业， OpenAI、谷歌、Meta、亚马逊、微软、英伟达等均曾在其平台寻求专家支持，Mercor 在高复杂度环节对传统外包形成替代。多轮融资加速扩张，估值持续抬升并获头部资本认可。据 TechCrunch 信息，Mercor 经历多轮融资。种子轮（2023 年）：General Catalyst 领投，约 360 万美元。A 轮（2024 年）： Benchmark 领投，3200万美元，投后估值约 2.5亿美元。B轮（2025年 2月）：Felicis Ventures 领投，1 亿美元，投后估值 20 亿美元，老股东跟投，资金用于扩张专家网络与升级平台功能。计划中的 C 轮（2025 年下半年）：公司与多家机构洽谈，估值目标上调至 100 亿美元以上，部分 VC 拟以 SPV 参与，交易尚未敲定。收入快速爬坡并实现盈余，小团队扩张带来管理挑战但规模效应增强。Mercor 在成立后营收增长曲线呈指数式攀升。据 TechCrunch 数据，2023 年公司年化经常性收入（ARR）约 100 万美元，并已实现小幅盈利。进入 2025 年初，披露的 ARR 约为 7500 万美元；2025 年 3 月，公司 CEO 在 X 平台宣布 ARR 突破 1 亿美元；随后在大模型训练需求推动下，年化收入迅速逼近 4.5 亿美元（据 Sacra 数据）。公司向投资人表示，有望以快于 Anysphere 的速度达到 5 亿美元 ARR 里程碑。盈利方面，据 Forbes 数据，公司 2025 年上半年净利润约 600 万美元，显示其商业模式已具备自我造血能力。组织层面，完成 B 轮融资时公司全职员工共 31 人，其中美国本土 11 人、印度及其他地区合同工程师 20 人；据彭博社报道，公司计划将员工规模由 2025 年初的约 75 人扩充至年末约 100 人。

国内：DeepSeek、Kimi 在最新的模型中均系统性使用了合成数据

DeepSeek V3.2 合成数据成为提升泛化与推理能力的关键支点。V3.2 后训练阶段延续“专家蒸馏+单阶段混合 RL”路径，其中合成数据的作用尤为突出。团队通过数学、编程、推理、Agent 编码与检索五类专家模型生成多风格高质量合成样本，并区分“思维型”与“非思维型”两类风格，显著扩展了监督样本的覆盖度与多样性。经由单阶段 GRPO 强化学习融合推理、Agent 与人类对齐目标，模型在专家层面性能趋同并实现多域能力平衡。我们认为，V3.2 通过系统性引入高质量合成数据，为稀疏架构下的训练稳定性与跨域泛化提供了关键支撑。 Kimi K2 通过大规模智能体合成数据体系，系统提升模型的工具使用与任务协同能力。为强化模型的 Agent 行为与工具调用能力，Kimi 团队构建了一个大规模智能体数据合成流水线。该体系在数百个应用领域中系统生成了数千种真实与合成工具，并据此构建数百个具差异化工具集的智能体。智能体在模拟环境中与用户代理进行多轮交互，生成逼真的工具使用场景与任务数据。所有任务均采由 LLM 评审器根据任务规范筛选高质量样本，确保数据的一致性与有效性。通过这一流程，K2 获得了大规模、多样化且具真实性的训练数据，为后续强化学习与复杂任务泛化奠定了坚实基础。我们认为，K2 的合成数据策略不仅显著扩展了高质量监督信号的规模，也构建了可持续演化的 Agent 数据生产机制，为智能体能力的系统性提升提供了关键支撑。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）