2025年中国互联网行业第二波DeepSeek冲击：V3.2改写中国云生态与芯片生态的推理经济学

来源：摩根大通
发布时间：2025/12/12
浏览次数：93
举报

相关深度报告REPORTS

中国互联网行业第二波DeepSeek冲击：V3.2改写中国云生态与芯片生态的推理经济学.pdf

中国互联网行业第二波DeepSeek冲击：V3.2改写中国云生态与芯片生态的推理经济学。我们认为，DeepSeekV3.2的发布标志着国内AI市场迎来第二波“DeepSeek冲击”：以国内适中的价格即可获得接近前沿模型的开源推理能力，因为DeepSeek将模型API降价30-70%，同时长上下文推理可能节省6-10倍的工作量。此外，V3.2-Exp是率先在首日便针对非CUDA生态，包括华为的CANN堆栈和Ascend硬件以及寒武纪vLLM-MLU和海光DTK，进行优化的国产主流前沿模型之一。我们认为这一最新进展利好中国AI生态的大多数利益相关者（即云运营商、AI芯片制造...

中国AI生态中的受益者

云运营商——以更优的单位经济效益实现 MaaS 变现。云供应商要么可以提高 AI 工作负载的利润率（价格相同、成本下降），要么降价走量，推升 MaaS 普及率，同时可以通过智能体工具、检索增强生成（RAG）技术和垂直解决方案实现差异化，而不单靠基础模型性能。我们认为这样一来，单个 token 的利润率将小幅上升，然而总计算量获得规模驱动。我们认为，提供 MaaS 的云运营商是直接受益者，比如阿里云、腾讯云和百度智能云。V3.2 迅速在国内云端部署：华为云和 Ascend 实现了 Day-0 支持，推出了 V3.2-Exp 服务；寒武纪和海光紧随其后，优化了推理引擎；优刻得已在其 UModelVerse 平台上集成了 V3.2 和 Speciale API。阿里云的百炼/ Model Studio 将 DeepSeek-V3.2-Exp 作为一流 MaaS 选项，并明确指出它处理长文本的成本比 DeepSeek-V3.1 低。国内芯片制造商——架构验证和需求拉动。我们认为 DeepSeek 3.2 的发布表明 GPT-5 级开源模型可以在国内加速器上高效运行，降低中国 AI 买家的潜在执行风险，并带动对国产芯片和 AI 服务器的增量需求，即使单个 token 成本下降。主要受益者包括国内芯片制造商，其次是国内 GPU/服务器厂商。 V3.2-Exp 是率先在首日便针对非 CUDA 生态，包括华为的 CANN 堆栈和 Ascend 硬件以及寒武纪 vLLM-MLU 和海光 DTK，进行优化的国产主流前沿模型之一。

AI 智能体平台和垂直 SaaS 开发商——以更低的可变成本提升能力

我们认为，对于智能体 SaaS 和垂直 AI 开发商而言，V3.2 可以在大幅降低可变成本的情况下，提供更高智能、更长记忆引擎，从而改善单位经济效益，扩大可处理工作流的范围（例如全代码库智能体、全合同审查）。V3.2 的“思考+工具调用”和 128k-token 上下文恰恰面向 AI 助理、开发者智能体和垂直行业助理（编码、法律、金融、医疗保健）背后的工作流程。此外，Hugging Face 和 ModelScope 上提供宽松式许可的开放权重模型，降低了独立 SaaS 构建者微调或自托管的门槛。

DeepSeek V3.2对比V3.1

从 DeepSeek V3.1 到 V3.2 的演变，凸显了功能和成本效益的显著提升。DeepSeek V3.2 的 Artificial Analysis 智能指数从大约 54 提高到约 66 （智能水平提升 22%），同时将 token 的有效价格降低 50%以上。这种演变证实了 DeepSeek 的技术策略，即以显著低于同行的入门价格提供卓越的推理能力。

API 定价

根据 Artificial Analysis，DeepSeek V3.2 Reasoning 每百万 token 的输入/输出价格已分别降至 0.28 美元/0.42 美元，而 V3.1 Reasoning（ 2025 年 9 月发布的模型）分别为 0.42 美元/1.34 美元，R1（2025 年 1 月发布的模型）分别为 1.35 美元/4.00 美元。根据第三方和硬件供应商的基准，这意味着输入成本对比 V3.1 降低 33%，输出成本降低 69%，部分工作负载的长上下文推理成本降低了 6-10 倍。我们认为，这标志着中国 AI 市场迎来第二波“DeepSeek 冲击”：以国内适中的价格即可获得接近前沿模型的开源推理能力。

能力和架构：简而言之，V3.1 是一个强大的混合“思考”模型，重点聚焦一般聊天和稳定性；V3.2 是一个以推理为先的智能体级引擎，在保持原始功能相当的同时大大提高了效率和硬件灵活性。

架构和效率：V3.1-Terminus：128k 上下文标准的密集多头潜在注意力（MLA）；聚焦语言稳定性和一般表现。V3.2：引入 DeepSeek 稀疏注意力机制（DSA），位于 MLA 层之上，通过闪电索引器（lightning indexer）选择每个 token 的 top-k 个键值条目。这在长上下文情境下，将主注意力复杂度从 O(L²) 降低到 O(L·k)，同时使索引器保持相对便宜。H800 和其他加速器上的基准测试显示，对比 V3.1-Terminus，长上下文处理速度约快 2-3 倍，内存占用约降低 30-40%，每个 token 的长上下文成本约降低 50%，而质量回归情况可以忽略。

推理和智能体行为。V3.1 引入了混合式“思考/非思考”模式并改进了函数调用，但“思考”和工具调用仍然松散耦合——通常模型会推理并调用工具，而不是二者深度交错。V3.2 直接针对推理优先的智能体行为进行训练，交叉思想链、多工具调用和反思达成统一。DeepSeek 在多个推理和智能体基准测试中报告达到了 GPT-5 级性能，而 Speciale 则在竞赛级数学和编程竞赛中媲美 Gemini 3.0 Pro。

硬件和生态支持。V3.1 主要针对英伟达 CUDA 进行了优化，而 V3.2/V3.2-Exp 则为华为 Ascend、寒武纪和海光提供了 Day-0 支持，并为 SGLang、vLLM 和其他推理框架提供了现成的内核，标志着明确转向国产硬件自主。

推动大语言模型API的行业定价下行

DeepSeek V3.2 显然是前沿大语言模型 API 的价格颠覆者。其每百万 token 的输入和输出价格分别为 0.28 美元和 0.42 美元——整体属于定价最低的一档——明显低于其他具有类似智能水平的模型。在智能指数与价格的对比图中，DeepSeek V3.2 处于高智能水平区间（类似于 GPT-5.1（高位）、Claude Opus 4.5 和 Gemini 3 Pro Preview），但在对数尺度上价格要低几倍。这种综合性表现将有效前沿外推：它迫使市场重新考虑“前沿级”能力的成本，并对任何宣传性能相近的竞争对手的 token 价格造成明显的下行压力。对比中美两国的大语言模型 API，定位上存在明显差异。中国模型，如 DeepSeek V3.2、Kimi K2 Thinking、GLM-4.6、Qwen 3 235B 和 MiniMax-M2 集群，处于“最具吸引力”价值象限中——智能得分相对较高，每百万 token 价格低于 2 美元，尤其是在输出方面。相比之下，来自美国厂商的旗舰闭源模型（GPT-5.1、Claude Opus 4.5、 Claude Sonnet、Gemini 3 Pro）往往占据更高的价格带，智能水平略胜一筹，但成本溢价明显。美国生态在某些绝对峰值性能指标上仍然领先，但是在性价比方面，中国的 API 目前竞争激烈，在某些情况下，为大规模部署提供了更优的价值主张。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）