如何理解DeepSeek的技术创新?

如何理解DeepSeek的技术创新?

最佳答案 匿名用户编辑于2025/04/28 10:38

DeepSeek-V3 以 557.6 万美元的训练成本刷新了大语言模型的经济性基准, 引发市场对 AI 算力成本重新定价的思考。

1. 训练:架构创新降低训练开销,强化学习路径减少数据依赖

DeepSeek V3 和 R1 全面突破了大模型训练成本的瓶颈。在 V3 系列中,通 过 MLA 机制、FP8 混合精度训练和 DualPipe 并行框架等技术创新,显著降 低了计算和内存开销;在 R1 系列中,通过强化学习和冷启动策略,大幅减 少了对昂贵监督数据的依赖。这些突破性进展为大模型的经济性训练开辟 了新途径。  DeepSeek-V3: DeepSeek-V3 通过 Multi-Head Latent Attention (MLA)机制实现了显著的 训练成本优化,核心在于低秩联合压缩技术。MLA 架构在注意力计算中采 用了创新的低秩联合压缩方法,将注意力的键值对压缩到更低维度的潜在 向量空间。MLA 的设计使得在生成过程中只需缓存压缩后的潜在向量,这 大幅减少了 KV 缓存需求。同时,DeepSeek-V3 对注意力查询也执行低秩压 缩,并通过 Rotary Positional Embedding (RoPE)进行处理。这种压缩方法在 保持与标准 Multi-Head Attention 相当性能的同时,显著降低了训练过程中 的内存占用和计算成本,使DeepSeek-V3在经济性训练方面具有明显优势。

创新的 Auxiliary-Loss-Free 负载均衡策略显著提升了 MoE 架构的训练效 率和计算资源利用率。DeepSeek-V3 对传统 MoE 架构进行了重要改进,引 入了更细粒度的专家分配机制。与传统依赖辅助损失函数来实现负载均衡 的方法不同,DeepSeek-V3 引入了动态偏置项机制,实时监控每个训练步骤 中专家的负载情况,自动调整偏置参数,既确保了计算负载的均衡分布,又 避免了额外的性能损失,使得模型在整个训练过程中都能保持 token 的完整 性,同时通过 Node-Limited Routing 机制限制了通信开销,实现了接近完整 的计算-通信重叠,从而在保证模型性能的同时显著提升了训练效率。 Multi-Token Prediction (MTP)机制实现了更密集的训练信号和更高效的数 据利用。DeepSeek-V3 的 MTP 设计采用了顺序预测机制,在每个位置同时 预测多个未来 token。MTP 通过若干个顺序模块实现,每个模块共享 embedding 层和输出层,显著节省了参数开销。与传统并行预测方法相比, MTP 保持了完整的因果链预测关系,帮助模型建立更好的长期依赖关系。 特别值得注意的是,这些 MTP 模块仅在训练阶段发挥作用,在实际推理时 可以直接移除,确保了推理阶段的轻量高效,同时又充分实现了训练阶段的 优化效果。

DualPipe 并行训练框架通过计算与通信的高效重叠显著提升了训练效率。 传统的跨节点专家并行训练面临计算与通信比例约为 1:1 的效率瓶颈。 DualPipe 通过将每个计算块分为 attention、all-to-all dispatch、MLP 和 all-to-all combine 四个组件,并对前向和反向计算块进行精细编排,有效消除了训 练 过 程 中 的 pipeline bubbles 。 与 传 统 的 1F1B (Harlap et al., 2018) 和 ZB1P (Qi et al., 2023b)方法相比,DualPipe 将 pipeline bubbles 减少了 3 倍, 同时仅增加 1/2 倍的峰值激活内存。更重要的是,DualPipe 具有出色的可扩 展性,其 bubbles 和激活内存不会随着 micro-batches 数量的增加而增长,这 使其在大规模训练场景下具有显著优势。

DeepSeek-V3 通过优化跨节点 all-to-all 通信机制,巧妙利用 IB 和 NVLink 双通道特性实现高效计算。研究团队针对集群架构特点,设计了专门的通信 内核,其中节点间通过 IB 互联(带宽 50GB/s),节点内则采用 NVLink 通 信(带宽 160GB/s,约为 IB 的 3.2 倍),充分利用硬件优势,并采用"IB 优 先传输+NVLink 即时转发"的策略,实现了 IB 和 NVLink 通信的完全重叠, 使得每个 token 在不增加 NVLink 额外开销的情况下,可以高效选择平均 3.2 个专家/节点,仅需 20 个 SMs 就能充分利用双通道带宽,且系统可以在保 持相同通信成本的前提下,将路由专家数从目前的 8 个扩展至 13 个。 三大关键技术实现训练过程中的极致内存优化。通过在反向传播时重新计 算 RMSNorm 和 MLA 上投影操作,避免持续存储这些激活输出,仅带来少 量计算开销就显著降低了内存需求;将模型参数的指数移动平均存储在 CPU 内存中,并在每个训练步骤后异步更新,实现了零额外开销的参数追 踪;在 DualPipe 策略下,将 embedding 层等浅层和输出层等深层部署在相 同 PP rank 上,实现了 MTP 模块与主模型间的参数和梯度物理共享,进一 步提升了内存使用效率。 DeepSeek 采用了 FP8 混合精度训练框架。DeepSeek 设计了细粒度的混合 精度方案,将大部分计算密集型操作(如 GEMM 运算)采用 FP8 格式执行, 同时对关键组件(如 embedding 模块、输出层、MoE 门控模块、归一化算 子和注意力算子)保持原始精度。团队引入了创新的分块量化策略,并通过 高精度累加过程降低量化误差,相比 BF16 基准,该方案在训练 1 万亿 token 后的相对损失误差保持在 0.25%内,同时显著降低了内存占用和通信开销。 精细化的量化策略和高精度累加机制,有效解决了 FP8 低精度训练中动态 范围受限的问题。DeepSeek 提出了细粒度量化方案:对激活值采用 1x128 的分块量化,对权重采用 128x128 的块状量化,显著提升了对离群值的适 应能力。同时,为解决低精度 GEMM 运算中的精度损失问题,团队设计了 基于 CUDA Cores 的高精度累加策略,每累积 128 个元素就提升到 FP32 进 行一次精确计算。实验验证表明,该方案在 K=4096 的大规模矩阵运算中, 将相对误差控制在 2%以内。

低精度存储和通信策略进一步优化训练资源消耗。DeepSeek 在优化器状态 追踪中采用 BF16 替代 FP32 格式,同时将激活值缓存转换为 FP8 格式以降 低内存占用。针对特定算子的精度敏感问题,团队采取了差异化处理策略: 对注意力算子后的线性层输入采用定制的 E5M6 格式并使用整数幂缩放, 而对 MoE 中的 SwiGLU 算子输入则采用 FP8 存储并在反向传播阶段重新 计算输出,在保证模型训练稳定性的同时,显著降低了内存和通信开销。

DeepSeek-R1: DeepSeek-R1 通过大规模强化学习替代监督数据,创新性地降低了训练成 本。DeepSeek 采用纯 RL 训练作为冷启动策略,仅在后期引入少量 CoT 数 据进行微调,有效避免了大规模监督数据收集和标注的高昂成本,同时保证 了模型的推理能力。 DeepSeek-R1 通过优化强化学习算法和设计高效的奖励机制,进一步降低 了训练成本。在算法层面,DeepSeek 采用 GRPO(Group Relative Policy Optimization)替代传统的 critic 模型,通过组内相对策略优化显著降低了计 算开销。在奖励机制设计上,系统采用基于规则的双重奖励体系,包括准确 性奖励和格式规范奖励,避免了使用需要额外训练资源的神经网络奖励模 型。这种基于规则的验证方法(如数学问题使用确定性结果验证,代码问题 使用编译器验证)既保证了训练效果,又降低了计算复杂度。

DeepSeek-R1 通过冷启动策略,在保持低成本优势的同时显著提升了训练 效率。与完全依赖 RL 训练的 R1-Zero 相比,R1 引入了少量高质量的 Chainof-Thought(CoT)数据作为冷启动 cold start 基础,有效避免了早期训练的 不稳定性。团队采用多层级数据收集策略,首先利用 R1-Zero 生成初始答 案,再通过人工后处理进行优化和验证,最终仅收集了数千条 CoT 数据用 于微调 DeepSeek-V3-Base 模型。这种方法既避免了大规模人工标注的高昂 成本,又保证了训练数据的质量,为后续的 RL 训练奠定了良好基础。相比 传统的全量监督学习方法,在保证模型性能的同时显著降低了数据采集和 标注成本,同时也加快了模型的收敛速度。

2. 推理:双阶段架构优化推理效率,蒸馏技术降低部署门槛

V3 和 R1 全面优化了推理阶段的成本效率。V3 系列采用双阶段推理架构和 多级并行策略降低大规模部署成本,R1 系列则通过模型蒸馏技术实现小型 化部署,共同构建了一套完整的低成本推理解决方案。

DeepSeek-V3: DeepSeek-V3 基于 H800 集群构建了双阶段推理架构,实现服务质量与吞 吐量的平衡。系统采用 NVLink 连接节点内 GPU,使用 IB 实现跨节点互联, 通过将推理过程分为 prefilling 和 decoding 两个阶段,有效平衡了在线服务 的响应时间(SLO)和整体吞吐量需求。 prefilling 阶段采用多级并行和动态专家调度策略,实现了推理性能的全面 优化。系统在4节点32 GPU的最小部署单元上,结合了4路张量并行(TP4)、 8 路数据并行(DP8)和 32 路专家并行(EP32)的混合架构,通过小规模 TP 和 节点内外差异化通信策略降低了通信开销。为解决 MoE 中的负载均衡问题, 引入了冗余专家机制,每个 GPU 除托管 8 个原始专家外,还额外部署 1 个 冗余专家,并通过 10 分钟一次的动态负载统计进行调整。同时,系统通过 同时处理两个计算负载相近的 micro-batch,实现了 attention 和 MoE 计算与 通信的有效重叠,进一步提升了整体吞吐量。 decoding 阶段采用大规模并行部署和精细化资源分配策略,平衡了延迟与 吞吐量。系统结合 TP4 和 DP80 的 attention 计算以及 EP320 的 MoE 架构, 其中 64 个 GPU 专门负责冗余专家和共享专家。为降低延迟,系统采用 IBGDA 技术实现 dispatch 和 combine 环节的点对点通信,并通过动态冗余 策略优化专家路由。考虑到 decoding 阶段 attention 占比较大的特点,系统 将一个 micro-batch 的 attention 计算与另一个的 dispatch+MoE+combine 重 叠处理。同时,由于每个专家的 batch size 较小(通常在 256 tokens 以内), 系统通过合理分配 SMs 资源,进一步优化了内存访问效率。

DeepSeek-R1: DeepSeek 通过蒸馏技术将大模型能力迁移到小模型,显著降低了推理部署成本。DeepSeek 选择 Qwen-1.5B、Llama-3.5B 等高性价比的开源小模型作 为蒸馏目标,直接使用 DeepSeek-R1 的训练样本进行微调,使小模型获得 了更强的推理能力,同时由于模型体积小、计算量低,大幅降低了实际部署 时的算力需求和运营成本。

3. 技术创新引发市场震荡,但长期算力需求未被动摇

DeepSeek 的低成本突破引发了市场对 AI 发展路径的重新思考。2025 年 1 月 27 日,英伟达股价大跌超 17%,市值蒸发超 5600 亿美元,创下历史最 大单日跌幅。我们认为这一暴跌主要源于 DeepSeek 的技术创新动摇了市场 对高算力依赖的固有认知:通过创新的架构设计和训练策略,DeepSeek 在 较低算力投入下也实现了强大的模型性能,挑战了 AI 发展必须依赖大规模 算力的传统观点,引发市场对 AI 芯片需求预期和估值体系的重新审视,产 生了大量对美国 Stargate 等大规模的算力投资项目的必要性的质疑。

情绪冲击消化后,市场开始重新理性看待算力需求的长期趋势。我们认为, 虽然 DeepSeek 证明了低成本训练的可能性,但这反而可能刺激大型科技公 司加速 AI 创新,进一步扩大算力投入以保持竞争优势。更重要的是, DeepSeek 的创新可能通过降低 AI 开发门槛,反而扩大了市场规模,长期看 反而有利于推动算力需求的增长。 DeepSeek 公布的训练成本仅反映了最终训练阶段的直接支出,大量隐性成 本易被忽视。在正式训练之前,企业需要投入大量资源进行前期研究,包括 算法理论研究、硬件性能探索和数据集分析等基础工作。特别是在消融实验 阶段,为了确定最优模型架构,研发团队往往需要反复验证不同组件的重要 性,这个反复试错的过程会产生大量计算开销。这些分散在数月乃至数年中 的研发投入,以及未被披露的失败尝试,都构成了难以量化的隐性成本。因 此,仅以最终训练阶段的直接成本来评估 DeepSeek 的技术突破,可能会低 估 AI 研发的实际投入门槛。 DeepSeek 的实际运营经历证实,即便降低了单次调用成本,算力供给仍然 面临严峻挑战。在上线仅 21 天后,DeepSeek 就积累了 2215 万日活用户, 这种爆发式增长直接导致算力供不应求。2 月 6 日,DeepSeek 出现了服务 器资源紧张的情况,不得不暂停 API 服务充值,以缓解服务器压力。这一 情况揭示了一个关键事实:虽然 DeepSeek 通过技术优化降低了推理成本, 但用户基数的急剧扩大仍会导致整体算力需求的大幅上升。

技术创新提升了算力效率,但并未改变 AI 产业对高性能计算的刚性需求。 虽然架构优化和训练策略创新能够降低单位算力成本,但随着 AI 应用从实 验室走向产业化部署,规模化商用过程中的各个环节都需要持续的算力投 入。同时,AI 技术的快速迭代和竞争加剧也推动企业不断提升模型性能, 这些因素共同决定了高性能计算基础设施仍将是 AI 产业发展的关键支撑。 随着人工智能从训练阶段转向推理阶段,算力投入的商业价值判断更加清 晰明确。随着人工智能技术的发展进程进入推理应用阶段,企业对算力资源 的投入属性发生了根本性转变。在模型训练阶段,算力投入主要体现为研发 性质的支出,其投资回报率难以准确衡量。而在推理阶段,算力投入直接服 务于具体的商业场景,成为可计量的经营性资产。这种转变使得企业在进行 算力投资决策时,能够基于明确的成本收益比进行评估,降低了投资风险。 特别是对于已经布局 AI 业务的大型科技企业而言,推理成本的持续下降正 在创造更加确定的投资回报空间,从而增强继续投资的意愿。

参考报告

计算机行业专题研究:DeepSeek重构算力基建长期价值的认知.pdf

计算机行业专题研究:DeepSeek重构算力基建长期价值的认知。市场低估了DeepSeek生态对算力需求的放大效应,我们预计仅其推理端就将产生近百万PFLOPS的算力需求。精度支持及通信效率率先突破的国产AI芯片厂商将获得显著的发展机会。DeepSeek的低成本突破实际上通过降低准入门槛扩大了市场规模,进一步推动了AI民主化进程。DeepSeek-V3以557.6万美元的训练成本刷新了大语言模型的经济性基准,一度引发市场对高端AI芯片的必要性的质疑。然而,从DeepSeek技术创新的角度以及持续攀升的AI算力需求,我们重新认识到:降低单次训练成本的技术突破不仅没有减少市场对高性能AI芯片的需求...

查看详情
相关报告
我来回答