2026年中国人工智能行业：春节迄今，模型智能体化，token消耗速度加快，将智谱MiniMax目标价上调至800港元1000港元

来源：摩根大通
发布时间：2026/02/28
浏览次数：74
举报

相关深度报告REPORTS

中国人工智能行业：春节迄今，模型智能体化，token消耗速度加快，将智谱MiniMax目标价上调至800港元1000港元.pdf

中国人工智能行业：春节迄今，模型智能体化，token消耗速度加快，将智谱MiniMax目标价上调至800港元1000港元。IPO以来智谱和MiniMax的股价上涨了五倍（而恒生指数涨幅为4.3%），这得益于投资者对纯粹的生成式AI个股需求旺盛以及“AI将颠覆一切”的叙事不断扩散。除了市场情绪，我们认为春节模型发布窗口标志着一次显著变化，那就是让变现态势有了可测量的明朗化动向。现在我们看到token消耗速度加快，智能体驱动的工作负载增多，以及高价值领域有了初步价格自律迹象-这些趋势正在将需求导向上游基础模型提供商。这些动向让我们对两家公司收入轨迹的持久性更有信心，也改善了...

春节AI迭代方向：模型重新定位为工作流系统

我们看到春节的模型发布以智能体的就绪水平为中心，其定义是在各个复杂工作流中的稳定多步骤执行。在这样的范式中，模型规划一系列动作，调用工具，合并中间输出数据，验证结果，并自主确定停止条件。这种使用模式显著提高了对循环次数、延迟和可靠性的经济敏感性。多步骤工作流后期出现的故障会产生高于正常水平的 token 成本，而且经常触发额外人工干预。因此，在混乱的现实世界输入和持续任务状态下的稳健性已经具有商业意义，在单次评估中的经济权重往往也会大于增量指标收益。因此推理效率和工作流稳定性已进入产品定位的前沿。阿里巴巴塑造 Qwen 3.5 的核心是更好地处理大工作负载和低于其前身的运营成本，从而与云类单位经济效益和企业考虑的总拥有成本直接统一起来。字节跳动对豆包 2.0 的定位是能够进行更深入的推理和复杂执行，同时强化效率叙事，并用 Seedance 和 Seedream 等支持工业规模内容制作的多模态模型的升级与之匹配。智谱的 GLM-5 完全符合这种结构性变化。推出 GLM-5 时明确强调了编码稳健性和长时间运行的智能体任务，表明其重点是密集执行类工作流的可靠性，而非表面上的会话质量。其编码方案随后的价格调整表明智谱正在将更高的工作流成功率和开发者可衡量的生产力收益联系起来。在编码等以智能体为中心的场景中，重试频率和校正周期的边际性下降可直接转化为经济价值，这使工作流稳定性成为一种可变现的属性。 MiniMax 从另一角度诠释了方向相同的主题。通过在 M2.5 及其 Lightning 版本中凸显吞吐量和透明的 token 价格，MiniMax 将并发和每个推理循环的边际成本作为智能体规模化部署的紧密限制因素。从这个角度来看，效率和延迟控制决定着多步骤自动化能否持续大规模运行。

全球AI竞争数据追踪工具

Token 价格追踪工具

智谱、MiniMax 和阿里巴巴等中国龙头 AI 模型供应商在发布新模型后采取了不同的价格策略 - 智谱 GLM-5 API 的价格较 GLM-4.7 上调一倍，编码方案价格也提高了 30%以上，标志着向高端市场转移。与之相反，MiniMax 仍采用低成本、规模优先的方法，阿里巴巴则通过降低工作负载经济效益来优化定价结构，甚至是在能力增强的情况下。同时，美国前沿模型的价格仍明显偏高，特别是产出 token，这使中国在可扩展部署方面具有明显优势。智谱的 GLM-5 显然标志着高端再分层。输入价格为 4-6 元，产出价格为 18-22 元，和上一代 GLM 相比明显上调（是 GLM-4.7 的两倍）。这是有意而为的重新定位，而非被动调整。通过在能力升级的同时双双提高投入和产出经济效益，智谱正在塑造高端应用场景，目标是复杂编码、企业级高价值工作负载。该策略反映出对模型质量和解锁更高价值场景的能力抱有信心。 Minimax 仍是低成本基准。M2.5 High-Speed 和 M2.5 的价格约为每 100 万输入 token 0.3-0.6 美元，输出为 1.2-2.4 美元，稳居国内定价区间底部。在整个更新周期中一直存在的价格自律表明公司优先考虑规模驱动的变现。通过将投入和产出成本都保持在平价状态，MiniMax 优先考虑广泛落地和高频智能体使用，特别是在成本敏感型和开发人员众多的场景中。这种结构与业务量带动的增长模式一致，后者用规模和工作负载强度来弥补较低的每 token 收益。阿里巴巴的 Qwen 采用更精确的价值重置法。Qwen3.5-Plus 的输入价格区间为 0.8-4.0 元，具体取决于上下文窗口，输出价格则为 4.8-24.0 元 - 在可比层级上的定位远低于智谱 GLM-5。关键因素是产出端经济性：新一代 Qwen 在保持产出价格吸引力的同时具有更强的智能，这一点很关键，原因是产出 token 通常主导着长形式生成和多步骤工作流的总成本。阿里巴巴并未追求绝对最低价，而是随着能力的提升不断压低工作负载的实际成本，从而在产品未完全商品化的情况下巩固性价比领先地位。

Token 消耗量追踪工具

今初迄今 OpenRouter 上的周度 token 消耗量明显增陡，目前每周总使用量接近约 14T 的水平，较 2025 年底翻了一番。同时，智能体应用已取代编码工具成为 token 需求的最大单一来源：仅 OpenClaw 每周就消耗约 2.35T token，远高于 Kilo Code 的约 1.3T。整体增速提高叠加智能体引领的应用结构意味着工作负载强度的结构性上升。应用结构的变化具有战略意义。受频率和会话长度影响，编码助手曾是以往 token 最密集的类别。如今自动执行任务的智能体排在榜首，这种情况表明多步骤编排、工具调用和工作流自动化的应用范围扩大。这些工作负载自然会提高每项任务的 token 数量，意味着当前的提速反映的是使用深度加大，而不仅仅是用户规模扩张。随着智能体渗透率上升，token 消耗量的结构性基准线将上移。

在模型层级，处于领先位置的大多为较新的高性能版本，同时中国供应商的占比很高。Minimax M2.5 以约 2.3T 的周度 token 排名第一，领先于 Kimi K2.5 （约 970B）和 GLM-5（约 770B）。这些模型集中在排行榜前部表明最近 token 的加速增长和成本效率具有竞争力的智能体就绪架构的联系越来越紧密。在我们看来，这些数据印证了竞争的明显轮转：随着智能体工作负载增大，使用量开始向能将推理深度和有吸引力的推理经济效益相结合的模型集中。

模型能力和效率追踪工具

Artificial Analysis 的最新排名显示中国目前正在和一批前沿相关模型竞争，而不是某个旗舰产品 - 中国企业正在从“缩小明显的能力差距”转向“在压缩后的前沿阵营中获胜”，在这里差异化表现为三个可观察的维度：（1）整体智能水平、（2）智能体就绪程度，（3）推理时间效率（智能对比活跃参数）。在这样的背景下，中国公司开始分道扬镳：部分公司的定位是能力领跑者（如智谱），而另一些看起来在效率上具有结构性优势（如 MiniMax）。

公司模型发布更新：能力、价格信号和策略解读

所有业内公司都以智能体就绪水平和改善推理经济性为中心。区别表现在防御性立足点和变现方法上。字节跳动的重点是分销、生产反馈回路和多模态产品界面，通过豆包 2.0 与 Seedance 2.0、Seedream 5.0 Lite 的组合来予以强化。阿里巴巴强调工作负载的经济性和云整合，围绕降本和大工作负载处理来塑造 Qwen 3.5。智谱将重心放在编码工作流的可靠性上，其表现方式为价格上行，从而隐含地展示任务实际经济效益的提升。MiniMax 的重点是吞吐量和每个循环的边际成本，采用与智能体流量模式匹配的分层方法。

字节跳动：豆包 2.0、Seedance 2.0（视频）和 Seedream 5.0 Lite（图像）

对字节跳动的春节周期的最佳理解是多模态同步升级，而非单一模型更新。豆包 2.0 的发布带有明确的“智能体时代”定位，重点是通过更强的推理转向执行复杂的真实世界多步骤任务。字节跳动还发布了图像生成模型 Seedream 5.0 Lite，介绍了理解、推理和生成的全面改进，并着重描绘了针对时间敏感型创作需求推出的实时检索增强功能。作为这个同步发布周期的一部分，字节跳动推出了新一代视频生成模型 Seedance 2.0，后者建立在统一的多模态音频-视频联合生成架构上。该模型支持涵盖文本、图像、音频和视频模式的结构化参考信息输入，从而能够更严密地控制时间一致性、运动连续性和跨模态对齐。字节跳动强调的是复杂交互场景和密集运动序列中稳定性的提升，这对生成式视频系统来说通常具有挑战性。要点在于，春晚期间 Seedance 2.0 部署在面向消费者的大规模场景中，在全国流量达到峰值的环境下生成视频并完成交互输出。这是一次真实世界压力测试，展示了极端并发情况下的运营稳定性和生产就绪水平，并彰显了字节跳动在工业规模多模态部署中的定位。字节跳动披露，春晚期间和豆包相关的 AI 互动约为单日 19 亿次，峰值推理吞吐量达到每分钟 633 亿 token，体现了该平台在极端的全国规模并发状态下的运营能力。

阿里巴巴：Qwen 3.5

阿里巴巴推出了“智能体 AI 时代”模型 Qwen 3.5，后者旨在执行复杂任务，包括“视觉智能体”功能。路透社报道称，阿里巴巴表示 Qwen3.5 的成本比上一代低 60%，处理大工作负载的能力是上一代的 8 倍。这条消息和阿里巴巴在云分发和企业部署中的结构性优势完全一致。在云环境中，工作负载处理和可预测的性价比左右着客户的总拥有成本决策，因而会直接影响 AI 服务的利润率和落地速度。评估价格和商业影响的最佳途径是捆绑和云 ARPU，而非孤立的 token 层级变现。性价比的持续改善可转化为更高的推理利用率、更大的服务工作负载集群以及云服务的增量配售率。因此 Qwen 3.5 意味着阿里巴巴的战略仍然是将智能体能力作为云原生组件予以工业化。

智谱：GLM-5 和基于工作流实际成本的定价权逻辑

智谱发布的 GLM-5 是新旗舰模型，改善了编码和长时间运行智能体的能力，路透社同时指出，开发 GLM-5 时使用了包括华为昇腾在内的国产芯片。本轮周期中最具经济意义的信号随即出现：由于需求旺盛，智谱将 GLM 编码方案的价格至少提高了 30%。

此番定价调整和基于价值的框架一致，其中用户为减少返工付费。在开发者工作流中，“得到正确答案”的总成本经常超过名义 token 支出。更高的完成概率和更少的迭代同时减少了 token 消耗量和人工校正时间。从这个角度看，如果 GLM-5 在提高成功率、降低重试频率以及稳定智能体编码任务中的工具调用方面有可衡量的改善，智谱的高价格对用户来说就具有经济合理性。因此恰当的 KPI 组合中应包括完成率、每项任务的重试次数、正确输出花费的时间和负债状态下的持续性能。商业风险仍与差异化的持久性有关，只有在工作流层级的经济性仍强于替代方案的情况下，价格自律才具有防御性。

MiniMax：M2.5 和 M2.5-Lightning 为并发优先基础设施

显然押宝于持久智能体的经济性是对 Minimax 的发布的最佳诠释。Minimax 对 M2.5-Lightning 的定位围绕吞吐量进行，表示性能约为每秒 100 token 并发布了 token 价格。公司还将其转化为运营预算框架，指出以该吞吐量连续运行 1 小时的成本约为 1 美元。此番披露有两个目的：一是将 MiniMax 展现为基础设施提供商，二是让企业用户明确了解智能体部署预算。 Lightning 层级具有经济意义。智能体系统经常存在多种任务类型：某些步骤需要深入推理，还有许多步骤对延迟敏感，重复且可操作（解析工具输出，总结检索到的片段，生成结构化调用）。“Lightning”层级发出的信号是 MiniMax 预计客户将按照步骤类型来调配流量，将超快推理用于高频步骤以控制延迟和成本，同时为存在真正需要的少数步骤保留较多的推理能力。这样的划分支持更高的并发，可在多步骤工作流中稳定用户体验，同时直指规模化智能体部署的主要瓶颈，即高并行状态下每个循环的边际成本。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）