DeepSeek核心十问十答.pdf

上传者：风****
时间：2025/02/06
热度：930
0人点赞
举报

DeepSeek核心十问十答。DeepSeek-R1 模型发布，具有高性能、低算力需求的特性，带动小模型推理能力的提升，引发全球开发者及用户关注。R1 作为开源模型性能接近头部闭源模型 o1，一定程度上已经反映了 AI 平权，同时纯强化学习对推理能力的提升带来 RL 范式泛化可能，预计后续基模的持续迭代，有望推动 AI 全产业链持续保持高景气和高关注度，关注算力、应用、端侧、数据等核心投资机会。

DeepSeek 模型密集更新，高性能+低成本促进用户数高增

近期 DeepSeek 多款模型上线并完全开源，其中 R1 在推理任务上基本实现于 o1 相当的性能，Janus-Pro 在多模态理解和生成方面表现较好。受春节信息传播下沉促进，DeepSeek 出圈并成为全球增速最快的 AI 原生应用，第 18 天达到 1500 万日活。此外， DeepSeek 通过算法迭代、架构升级，使通用及推理模型成本相较于 OpenAI 同类模型下降至数十分之一以下。

技术不断革新，大模型 Scaling L aw 仍有效

DeepSeek 通过多头潜在注意力、MoE、多 token 预测等架构和基础设施创新实现了高效训练，并在 R1-Zero 模型验证了纯强化学习对推理能力的提升。尽管 Pre-Training Scaling 面临技术、算力、数据的制约，但强化学习带来了规模化扩张新方向，预计各厂商将陆续跟进，持续优化模型架构。

D e epSeek-R1 促进 AI 平权，产业链享受发展红利

R1 作为开源模型性能接近头部闭源模型 o1，一定程度上已经反映了 AI 平权。同时，R1 使小模型具备推理能力成为可能，更低的成本将更有利于开发者探索 AI 的实际落地。