算力成本及长期需求分析

算力成本及长期需求分析

最佳答案 匿名用户编辑于2025/03/12 10:48

高度稀疏的模型架构。

DeepSeekMoE在专家模型的设计上引入了共享专家 + 路由专家的架构,并采用无辅助损失的负载均衡策略,使得计算资 源分配更加高效。DeepSeekMoE由256个路由专家组成,每个token在路由过程中会选择8个专家,其中共享专家始终被选 中,其余7个专家通过门控机制选择。DeepSeek-V3共包含671B个参数,其中每个token激活37B个参数,训练数据量为 14.8Ttoken。同时额外引入了一种无辅助损失的负载平衡策略以减轻因确保负载平衡而导致的性能下降。

Deepseek V2模型参数量达到236B,同时由于模型小专家混合的特性,模型每个token在推理时的激活参数为21B,可以实 现高推理速度。模型的核心优化点多头隐式注意力显著降低了训练和推理成本。在成本效率方面,相比V1的稠密模型, V2模型节约了42.5%的训练成本,减少了推理时93.3%的KV-cache显存占用,将生成的吞吐量也提升到了原来的5.76倍。

Deepseek提出了一种用FP8训练的混合精度框架。在不同计算步骤中使用 FP8、BF16、FP32 三种不同的数值格式,以在 计算效率和数值稳定性之间取得平衡。大多数计算密集型操作以FP8进行,与线性算子相关的所有三个核心计算内核操作, 即Fprop(前向传播)、Dgrad(激活反向传播)和Wgrad(权重反向传播)均以FP8执行,而少数关键操作则策略性地保 持其原始数据格式例如嵌入模块、输出头、MoE门控模块、归一化算子和注意力算子,以平衡训练效率和数值稳定性。

为了实现混合精度FP8训练,deepseek引入了多种策略来提升低精度训练的准确性,其中包括细粒度量化、提高累加精度、 尾数优先于指数、在线量化等策略。细粒度量化的办法帮助FP8精度实现训练,传统的方法基于整个张量进行缩放,而细 粒度量化则采用更小的分组单位,使得量化过程能够更好地适应离群值,从而提高训练的稳定性和精度。

DeepSeek-V3采用了16路管道并行(PP)、跨越8个节点的64路专家并行(EP)以及ZeRO-1数据并行(DP)。

DualPipe是一种新型的流水线并行方法,旨在减少计算和通信之间的等待时间,提高训练效率。传统流水线并行方法的 计算和通信比率通常接近 1:1,这意味着一半的时间可能被通信占据,导致GPU资源利用率低下。DualPipe通过计算-通 信重叠来隐藏通信开销,使得模型在大规模分布式环境下的训练更加高效。在DualPipe中,前向传播的计算任务和反向 传播的计算任务被重新排序,使它们能够互相重叠。具体来说,DualPipe 将前向传播和反向传播的不同计算阶段重新排 列,并手动调整GPU计算单元在通信和计算之间的分配比例。

Deepseek高效配置专家分发与跨节点通信,实现最优效率。跨节点的GPU通过InfiniBand(IB)完全互连,节点内的通 信则通过 NVLink 处理。NVLink提供160 GB/s的带宽,大约是IB(50 GB/s)的3.2倍。为了有效利用IB和NVLink的不同 带宽,将每个token分发的节点数限制为最多4个,从而减少IB流量。具体而言每个token可以高效地选择每个节点平均 3.2个专家,而不会产生NVLink的额外开销。

Deepseek采用了定制的PTX(并行线程执行)指令,并自动调整通信块大小,这显著减少了L2缓存的使用和对其他 SM 的干扰。在模型训练的分发和合并过程中,通过warp专业化技术,并将20个SM划分为10个通信通道,实现了最佳的计算 和通信资源配比。

DeepSeek-V3通过多token预测(MTP)技术不仅预测下一个token,还预测接下来的2个token,第二个token预测的接受率 在不同生成主题中介于85%到90%之间。 一方面,多token预测目标增加了训练信号的密度,可能提高数据效率。另一方面,多token预测可能使模型能够预先规 划其表示,以更好地预测未来token。

DeepSeek R1模型整体效果优异,同时训练和推理算力需求较低,主要原因是DeepSeek R1实现了算法、框架和硬件的优 化协同,在诸多维度上进行了大量优化,算法层面引入专家混合模型、多头隐式注意力、多token预测,框架层面实现 FP8混合精度训练,硬件层面采用优化的流水线并行策略,同时高效配置专家分发与跨节点通信,实现最优效率配置。  当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡阶段,算力的整体需求也从预训练阶段逐步过渡向 后训练和推理侧,通过大量协同优化,DeepSeek R1在特定发展阶段通过较少算力实现高性能模型表现,算力行业的长 期增长逻辑并未受到挑战。过去的预训练侧的scaling law正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来 算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。

参考报告

DeepSeek R1深度解析及算力影响几何.pdf

DeepSeekR1深度解析及算力影响几何。核心观点:Deepseek发布深度推理能力模型。R1-Zero采用纯粹的强化学习训练,证明了大语言模型仅通过强化学习也可以有强大的推理能力,DeepSeek-R1经历微调和强化学习取得了与OpenAI-o1-1217相媲美甚至超越的成绩。DeepSeekR1训练和推理算力需求较低,主要原因是DeepSeekR1实现算法、框架和硬件的优化协同。过去的预训练侧的scalinglaw正逐步迈向更广阔的空间,在深度推理的阶段,模型的未来算力需求依然会呈现爆发式上涨,充足的算力需求对于人工智能模型的性能进步依然至关重要。Deepseek发布深度推理能力模型,性...

查看详情
相关报告
我来回答