2025年第50周计算机行业周报:DeepSeek发布V3.2双模型,谷歌DeepThink引领推理革命

  • 来源:华鑫证券
  • 发布时间:2025/12/15
  • 浏览次数:126
  • 举报
相关深度报告REPORTS

计算机行业周报:DeepSeek发布V3.2双模型,谷歌DeepThink引领推理革命.pdf

计算机行业周报:DeepSeek发布V3.2双模型,谷歌DeepThink引领推理革命。算力:算力租赁价格平稳,DeepSeek发布V3.2双模型2025年12月1日,DeepSeek团队在ChatGPT发布三周年之际推出DeepSeek-V3.2系列开源大模型,以“双模型+三大技术突破”实现开源模型向第一梯队的逆袭,大幅缩小与闭源模型的性能差距。该系列包含两款定位差异化的模型:标准版DeepSeek-V3.2作为“日常全能手”,平衡推理能力与输出效率,推理水平达GPT-5级别,支持双模式工具调用,泛化能力强;增强版Speciale聚焦极致推理,...

1、 算 力 动 态 : 算 力 租 赁 价 格 平 稳 , DeepSeek 发布 V3.2 双模型

1.1、 Tokens 跟踪

根据 OpenRouter 公开数据,2025 年 12 月 1 日至 12 月 7 日,周度 token 消耗量有所下 降,调用量为 6.19T,环比上周-13.9%。在 tokens 规模 leaderboard 前五名中,xAI 旗下 GrokCodeFast1 以 879Btokens 位居榜首;其另一产品 Grok4.1Fast 以 585Btokens 位列第二; Anthropic 的 ClaudeSonnet4.5 以 429Btokens 排第三;Google 的 Gemini2.5Flash 和 Anthropic 的 ClaudeOpus4.5 分别以 399B、209Btokens 位列第四、第五。 从市场份额维度来看,xAI 以 203Btokens 占据 21.3%的份额,稳居首位;Google 以 200Btokens 占比 20.9%,位列第二;Anthropic、OpenAI、Deepseek 则分别以 153B、117B、 72.5Btokens,对应占据 16.1%、12.3%、7.6%的市场份额。

1.2、数据跟踪:算力租赁价格平稳

上周算力租赁价格平稳。具体来看,显卡配置为 A100-40G 中,腾讯云 16 核+96G 价格 为 5.73 元/时,阿里云 12 核+94GiB 价格为 31.58 元/时;显卡配置为 A800-80G 中,恒源云 16 核+256G 价格为 7.50 元/时。

1.3、产业动态:DeepSeek 发布 V3.2 双模型,引领开源 大模型推理与智能体能力新高度

2025 年 12 月 1 日,DeepSeek 团队在 ChatGPT 发布三周年之际推出的 DeepSeek-V3.2 系 列,不仅填补了开源模型与闭源模型的性能鸿沟,更以“双模型+硬核技术”的组合,让开 源大模型重新跻身全球第一梯队。 DeepSeek-V3.2 系列包含两个定位截然不同的模型,精准覆盖不同场景的需求。 作为聚焦实用的基础版本,DeepSeek-V3.2 的核心目标是平衡推理能力与输出效率—— 它既能胜任日常问答、通用 Agent 任务等真实场景需求,又通过优化大幅缩短了输出长度, 减少用户等待时间。在性能上,它的推理能力达到 GPT-5 水平,略低于 Gemini-3.0-Pro; 但相比 Kim-K2-Thinking 等模型,输出长度大幅缩减,计算开销显著降低。更关键的是,它 是 DeepSeek 首个“思考者+工具调用”双模模型:支持思考/非思考双模式工具调用,基于 1800+环境、85000+复杂指令的大规模 Agent 训练数据,泛化能力强。 作为 V3.2的长思考增强版,Speciale版本融合了DeepSeek-Math-V2的定理证明能力, 在指令跟随、数学证明、逻辑验证等复杂任务上的表现媲美 Gemini-3.0-Pro,甚至在 IMO2025、CMO2025、ICPCWorldFinals2025 等国际顶级竞赛中斩获金。不过,这个版本并非 为日常场景设计:它目前仅提供研究使用,不支持工具调用,也未针对日常对话与写作做 专项优化;同时,它完成高复杂度任务时消耗的 Tokens 更多、成本更高,但在高度复杂任 务上的表现大幅优于标准版。目前,Speciale 仅开放临时 API 供测试使用。

DeepSeek 团队精准识别了开源模型的三大短板:长序列效率低、训练资源不足、Agent 泛化能力弱,并通过三项硬核技术实现了突破。

突破一:DSA 稀疏注意力机制,解决长文本“计算负担”

传统注意力机制在处理长序列时计算复杂度为 O(L²),严重限制了模型的部署效率与训 练扩展性。DeepSeek 团队的 DSA(DeepSeekSparseAttention)稀疏注意力机制,将计算复 杂度降至 O(L·k)(k 远小于 L),同时让模型在长上下文任务中显著加速推理且无明显性 能损失。 DSA 由“闪电索引器”和“细粒度 Token 选择”两个组件构成:前者快速计算新 Token 与历史 Token 的相关性分数,后者选择 Top-k 最相关 Token 进行注意力计算。团队通过两阶 段训练策略(先训练索引器、再加入筛选机制),让 V3.2 在 128k 长度序列上的推理成本比 V3.1-Terminus 降低了好几倍——在 H800 集群测试中,当序列长度达 128k 时,预训练阶段 每百万 Token 成本从 0.7 美元降至 0.2 美元,解码阶段从 2.4 美元降至 0.8 美元。

突破二:可扩展强化学习协议,释放“高阶能力”

此前开源模型在训练阶段的计算资源投入不足,限制了其在困难任务上的表现。 DeepSeek 团队开发了稳定且可扩展的强化学习(RL)协议,让后训练阶段的计算预算超过 了预训练成本的 10%,从而解锁了模型的高级能力。 为了稳定扩展 RL 计算规模,团队做了三项优化:一是无偏 KL 估计,修正原始 K3 估计 器的系统性误差;二是“离群序列掩码”策略,过滤掉偏离过大的负样本序列,避免干扰 训练;三是 KeepRouting 操作,通过保存推理路径并在训练时 1 强制使用相同路径,从而提 升数据一致性。同时,团队采用“专家蒸馏”策略:先为数学、编程等任务训练专门的 “专家模型”,再用这些模型生成的数据训练最终模型,进一步强化了复杂任务能力。

突破三:大规模 Agent 任务合成,补齐“泛化短板”

DeepSeek 团队精心设计了一种全新的思考上下文管理机制:仅在引入新的用户消息时 才会丢弃历史推理内容,而仅添加工具相关消息时,推理内容将得以保留。即使推理痕迹 被删除,工具调用历史及其结果仍会存留在上下文中。在冷启动阶段,团队通过精心设计 的系统提示,使模型能够在推理过程中自然地插入工具调用。此外,团队还开发了一个自 动环境合成 pipeline,成功生成了 1827 个任务导向的环境和 85000 个复杂提示。 在代码 Agent 方面,团队从 GitHub 挖掘数百万个 issue-PR 对,搭建了数万个可执行 的软件问题解决环境;搜索 Agent 则采用多 Agentpipeline 生成训练数据,覆盖长尾实体 与复杂验证场景。 评测结果显示, DeepSeek-V3.2 在 SWE-Verified 上达到 73.1% 的 解 决率 , 在 TerminalBench2.0 上准确率达 46.4%,大幅超越现有开源模型;在 MCP-Universe 等工具使 用基准测试中,性能已接近闭源模型水平,这证明它能将推理策略泛化到训练时未见过的 Agent 场景。

2、 AI 应用动态:Character.AI 周访问量环 比+4.85%,谷歌 DeepThink 引领推理革命

2.1、 周流量跟踪:Character.AI 周访问量环比+4.85%

本期(2025.11.27-2025.12.3)AI 相关网站流量数据:访问量前三位分别为 ChatGPT (1332.0M)、Bing(772.5M)和 Gemini(374.6M),访问量环比增速第一为 Character.AI (4.85%);平均停留时长前三位分别为 Character.AI(00:18:30)、Discord(00:10:49) 和 Kimi(00:08:36);平均停留时长环比增速第一为 Kimi(1.57%)。

2.2、 产业动态:谷歌 DeepThink 引领推理革命,人工智 能竞争迈入新阶段

2025 年 12 月 5 日,谷歌 DeepMind 正式推出了其新一代人工智能模型—— Gemini3DeepThink,该模型在多项国际顶尖测试中表现出色,尤其在高难度数学、科学与 逻辑推理任务上实现了显著突破。这一版本是基于前代 Gemini2.5DeepThink 的进一步升级, 通过引入“并行思考”机制,模型能够同时探索多种假设与解决路径,从而在处理复杂问 题时展现出更强大的推理与创造能力。其发布不仅标志着人工智能在深度推理领域迈出了 关键一步,也被视为向通用人工智能(AGI)目标迈进的重要里程碑。

在性能方面,Gemini3DeepThink 在多个权威基准测试中取得了领先行业的成绩。在无 需外部工具辅助的“Humanity’sLastExam”测试中,该模型获得了 41%的高分;而在需要 代码执行配合的 ARC-AGI-2 评估中,更是以 45.1%的成绩刷新了全球纪录。相比之下, Gemini3Pro 版本在相同任务上的表现则明显逊色,尤其在涉及多步骤推理、物理模拟与创 造性生成的场景中,DeepThink 版本展现出了极强的理解与执行能力。例如,在根据二维草 图生成精确三维交互场景的任务中,DeepThink 版本能够高度还原原图细节,并在光影效果、 物理交互等方面实现符合真实逻辑的模拟,体现出其在多模态理解与生成方面的显著优势。

此外,Gemini3DeepThink 在创造性任务上也表现出令人印象深刻的能力。例如,在生 成程序化行星图像、设计具备物理模拟效果的游戏关卡,如多米诺骨牌碰撞、以及将静态 物体转化为动态三维动画等任务中,该模型不仅能够准确理解指令,还能融入合理的物理 约束与创意元素,生成结果既符合逻辑又富于想象。

值得关注的是,推动这一技术突破的背后是一支由华人科学家领衔的精英研发团队。 谷歌 DeepMind 近日宣布,将在新加坡组建一个专注于高级推理、LLM/RL,以及推进 Gemini、 GeminiDeepThink等最前沿 SOTA 模型的发展的新团队,该团队将由知名华人研究员 YiTay负 责领导,并向位于美国山景城的谷歌资深研究员 QuocLe 汇报。YiTay 强调人才密度的重要 性,表示会以小而精的配置开展前沿攻关,并与多位重量级研究员保持紧密协作,共同推 进 Gemini 系列模型的发展。 除了技术层面的突破,Gemini3 系列的发布也在市场层面引起了显著反响。自 Gemini3Pro 上线以来,谷歌 Gemini 系列产品的网页端访问量实现了显著增长,总体市场份 额突破 15%,月访问量达到 13.51 亿次,环比增幅超过 14%。与此同时,尽管 OpenAI 旗下的 ChatGPT 在绝对访问量上仍保持领先,但其市场份额呈现持续下滑趋势,月访问量在近期首 次跌破 60 亿次。另一方面,Grok 模型也凭借其 4.1 版本的更新实现了连续两个月的流量增 长,访问量创下历史新高。这一动态反映出当前人工智能助手市场竞争日趋激烈。 总体而言,Gemini3DeepThink 的推出,标志着人工智能竞赛的重点正从追求规模转向 攻坚深层能力。其推理、问题解决及创造力的提升,是技术向具备逻辑、规划与常识理解 的深层智能演进的关键一步。

3、 AI 融资动向:BlackForestLabs 完成 3 亿美元融资,实现技术架构代际升级

2025 年 12 月 2 日,德国开源图像生成独角兽 BlackForestLabs 宣布完成 3 亿美元 B 轮融资,估值 32.5 亿美元。本轮融资由 SalesforceVentures 和知名风投 AnjneyMidha 领 投,Nvidia、Canva、FigmaVentures、Temasek 以及多家风险投资机构参投。 BlackForestLabs 于 2024 年正式成立,由机器学习领域研究人员 RobinRombach、 PatrickEsser 与 AndreasBlattmann 联合创办。该团队核心成员此前曾参与开源图像生成 模型系列 StableDiffusion 的研发工作。 BlackForestLabs 本次融资的核心优势在于其技术架构的代际升级。公司最新发布的 FLUX.2 模型系列摒弃了传统的纯扩散架构,转而采用更为先进的“FlowMatching”技 术。尽管二者均涉及从噪声中还原图像,但流匹配技术通过更高效的数学路径执行任 务,进一步降低了推理成本。更为关键的是,FLUX.2 融合了 Transformer 架构元素—— 该架构通常应用于大型语言模型,使视觉模型具备了更强的逻辑理解能力。此外, FLUX.2 还引入了 MistralAI 的开源视觉模型与潜在空间压缩技术,在提升光影渲染逼真 度的同时,实现了推理速度的数量级提升。

在商业模式探索方面,BlackForestLabs 正实施一套成熟的“开源核心+专有增值” 策略。该公司在 GitHub 上开放了 FLUX.2 的基础版本,凭借极低的入门门槛,通过开发者 社区构建起生态护城河;同时,针对企业级需求,推出了 FLUX.2[pro](极致画质)和 FLUX.2[flex](极致速度)两款专有版本。这一策略不仅维持了技术社区的活跃度和迭 代效率,还为对性能和版权有严格要求的 B 端客户提供了付费选择。此前发布的 FLUX.1 系列已累积数百万用户,充分证明了该模式在与 Midjourney 等闭源竞品竞争时的强大竞 争力。 然而,BlackForestLabs 的战略布局远不止于文生图领域。公司明确表示,新注入的 资金将用于构建集视觉感知、生成、记忆和推理于一体的超级模型,这标志着公司正从 单一的 AIGC 内容生成向视觉智能体方向转型。通过赋予算法强大的推理能力, BlackForestLabs 实质上是在为机器人市场打造“感知系统”与“决策中枢”。未来,机 器人不仅需高效处理传感器数据,更需基于视觉信息做出复杂的导航与操作决策。这一 战略方向的转变,将使其直接与 LumaAI 等获得巨额融资的 AI 公司展开竞争,争夺物理世 界 AI 的市场入场权。

4、 行情复盘

上周(12.1-12.5 日),AI 应用指数/AI 算力指数/万得全 A/中证红利日涨幅最大值分 别为 1.11%/1.55%/1.14%/0.83%,AI 应用指数/AI 算力指数/万得全 A/中证红利日跌幅最大 值分别为-2.44%/-2.06%/-0.72%/-0.38%。AI 算力指数内部,天孚通信以+25.79%录得上周 最大涨幅,芯原股份以-11.03%录得上周最大跌幅。AI 应用指数内部,睿创微纳以+10.84% 录得上周最大涨幅,蓝色光标以-13.98%录得上周最大跌幅。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至