2025年中国互联网行业第二波DeepSeek冲击:V3.2改写中国云生态与芯片生态的推理经济学

  • 来源:摩根大通
  • 发布时间:2025/12/12
  • 浏览次数:93
  • 举报
相关深度报告REPORTS

中国互联网行业第二波DeepSeek冲击:V3.2改写中国云生态与芯片生态的推理经济学.pdf

中国互联网行业第二波DeepSeek冲击:V3.2改写中国云生态与芯片生态的推理经济学。我们认为,DeepSeekV3.2的发布标志着国内AI市场迎来第二波“DeepSeek冲击”:以国内适中的价格即可获得接近前沿模型的开源推理能力,因为DeepSeek将模型API降价30-70%,同时长上下文推理可能节省6-10倍的工作量。此外,V3.2-Exp是率先在首日便针对非CUDA生态,包括华为的CANN堆栈和Ascend硬件以及寒武纪vLLM-MLU和海光DTK,进行优化的国产主流前沿模型之一。我们认为这一最新进展利好中国AI生态的大多数利益相关者(即云运营商、AI芯片制造...

中国AI生态中的受益者

云运营商——以更优的单位经济效益实现 MaaS 变现。 云供应商要么可以提高 AI 工作负载的利润率(价格相同、成本下降 ),要么降价走量,推升 MaaS 普及率,同时可以通过智能体工具、 检索增强生成(RAG)技术和垂直解决方案实现差异化,而不单靠基 础模型性能。我们认为这样一来,单个 token 的利润率将小幅上升, 然而总计算量获得规模驱动。 我们认为,提供 MaaS 的云运营商是直接受益者,比如阿里云、腾讯 云和百度智能云。V3.2 迅速在国内云端部署:华为云和 Ascend 实现 了 Day-0 支持,推出了 V3.2-Exp 服务;寒武纪和海光紧随其后,优 化了推理引擎;优刻得已在其 UModelVerse 平台上集成了 V3.2 和 Speciale API。阿里云的百炼/ Model Studio 将 DeepSeek-V3.2-Exp 作为 一流 MaaS 选项,并明确指出它处理长文本的成本比 DeepSeek-V3.1 低。 国内芯片制造商——架构验证和需求拉动。 我们认为 DeepSeek 3.2 的发布表明 GPT-5 级开源模型可以在国内加速 器上高效运行,降低中国 AI 买家的潜在执行风险,并带动对国产芯 片和 AI 服务器的增量需求,即使单个 token 成本下降。 主要受益者包括国内芯片制造商,其次是国内 GPU/服务器厂商。 V3.2-Exp 是率先在首日便针对非 CUDA 生态,包括华为的 CANN 堆 栈和 Ascend 硬件以及寒武纪 vLLM-MLU 和海光 DTK,进行优化的 国产主流前沿模型之一。

AI 智能体平台和垂直 SaaS 开发商——以更低的可变成本提升能力

我们认为,对于智能体 SaaS 和垂直 AI 开发商而言,V3.2 可以在大幅 降低可变成本的情况下,提供更高智能、更长记忆引擎,从而改善单 位经济效益,扩大可处理工作流的范围(例如全代码库智能体、全合 同审查)。V3.2 的“思考+工具调用”和 128k-token 上下文恰恰面向 AI 助理、开发者智能体和垂直行业助理(编码、法律、金融、医疗保 健)背后的工作流程。此外,Hugging Face 和 ModelScope 上提供宽 松式许可的开放权重模型,降低了独立 SaaS 构建者微调或自托管的 门槛。

DeepSeek V3.2对比V3.1

从 DeepSeek V3.1 到 V3.2 的演变,凸显了功能和成本效益的显著提升 。DeepSeek V3.2 的 Artificial Analysis 智能指数从大约 54 提高到约 66 (智能水平提升 22%),同时将 token 的有效价格降低 50%以上。这 种演变证实了 DeepSeek 的技术策略,即以显著低于同行的入门价格 提供卓越的推理能力。

API 定价

根据 Artificial Analysis,DeepSeek V3.2 Reasoning 每百万 token 的输 入/输出价格已分别降至 0.28 美元/0.42 美元,而 V3.1 Reasoning( 2025 年 9 月发布的模型)分别为 0.42 美元/1.34 美元,R1(2025 年 1 月发布的模型)分别为 1.35 美元/4.00 美元。根据第三方和硬件供应 商的基准,这意味着输入成本对比 V3.1 降低 33%,输出成本降低 69%,部分工作负载的长上下文推理成本降低了 6-10 倍。我们认为,这标志着中国 AI 市场迎来第二波“DeepSeek 冲击”:以国内适中的 价格即可获得接近前沿模型的开源推理能力。

能力和架构:简而言之,V3.1 是一个强大的混合“思考”模型,重点 聚焦一般聊天和稳定性;V3.2 是一个以推理为先的智能体级引擎,在 保持原始功能相当的同时大大提高了效率和硬件灵活性。

架构和效率:V3.1-Terminus:128k 上下文标准的密集多头潜在注 意 力 (MLA) ; 聚 焦 语 言 稳 定 性 和 一 般 表 现 。V3.2: 引 入 DeepSeek 稀疏注意力机制(DSA),位于 MLA 层之上,通过闪 电索引器(lightning indexer)选择每个 token 的 top-k 个键值条目 。这在长上下文情境下,将主注意力复杂度从 O(L²) 降低到 O(L·k),同时使索引器保持相对便宜。H800 和其他加速器上的基 准测试显示,对比 V3.1-Terminus,长上下文处理速度约快 2-3 倍 ,内存占用约降低 30-40%,每个 token 的长上下文成本约降低 50%,而质量回归情况可以忽略。

推理和智能体行为。V3.1 引入了混合式“思考/非思考”模式并改 进了函数调用,但“思考”和工具调用仍然松散耦合——通常模 型会推理并调用工具,而不是二者深度交错。V3.2 直接针对推理 优先的智能体行为进行训练,交叉思想链、多工具调用和反思达 成统一。DeepSeek 在多个推理和智能体基准测试中报告达到了 GPT-5 级性能,而 Speciale 则在竞赛级数学和编程竞赛中媲美 Gemini 3.0 Pro。

硬件和生态支持。V3.1 主要针对英伟达 CUDA 进行了优化,而 V3.2/V3.2-Exp 则为华为 Ascend、寒武纪和海光提供了 Day-0 支持 ,并为 SGLang、vLLM 和其他推理框架提供了现成的内核,标志 着明确转向国产硬件自主。

推动大语言模型API的行业定价下行

DeepSeek V3.2 显然是前沿大语言模型 API 的价格颠覆者。其每百万 token 的输入和输出价格分别为 0.28 美元和 0.42 美元——整体属于定 价最低的一档——明显低于其他具有类似智能水平的模型。在智能指 数与价格的对比图中,DeepSeek V3.2 处于高智能水平区间(类似于 GPT-5.1(高位)、Claude Opus 4.5 和 Gemini 3 Pro Preview),但在 对数尺度上价格要低几倍。这种综合性表现将有效前沿外推:它迫使 市场重新考虑“前沿级”能力的成本,并对任何宣传性能相近的竞争 对手的 token 价格造成明显的下行压力。 对比中美两国的大语言模型 API,定位上存在明显差异。中国模型, 如 DeepSeek V3.2、Kimi K2 Thinking、GLM-4.6、Qwen 3 235B 和 MiniMax-M2 集群,处于“最具吸引力”价值象限中——智能得分相 对较高,每百万 token 价格低于 2 美元,尤其是在输出方面。相比之 下,来自美国厂商的旗舰闭源模型(GPT-5.1、Claude Opus 4.5、 Claude Sonnet、Gemini 3 Pro)往往占据更高的价格带,智能水平略胜 一筹,但成本溢价明显。美国生态在某些绝对峰值性能指标上仍然领 先,但是在性价比方面,中国的 API 目前竞争激烈,在某些情况下, 为大规模部署提供了更优的价值主张。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至