DeepSeek技术创新与效应分析

提问时间：2025/04/03
浏览次数：94
提问者：匿名用户
举报
分享微信 QQ 微博

DeepSeek技术创新与效应分析

标签

DeepSeek

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/04/03 15:19

大模型研发成本需要数千万乃至上亿美元。

1.DeepSeek：技术创新

创新程度

DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型，并进行和积累了大量技术创新，包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等，这些技术并不是所有都是原始创新，但是能够进行如此多大模型架构底层创新的实验室，在全世界可能也只有少数几个； DeepSeek所有模型架构上的创新均是围绕“降本增效”：在基本不损害性能前提下，尽可能通过算法挖掘和提升硬件训练和解码效率。美国采取芯片禁令（全球三级管控）策略维持自己的AI领导地位，DeepSeek算法绕过了美国的算力护城河。

推理模型 | R1

DeepSeek R1主要创新。DeepSeek-R1-Zero：大规模RL训练，发现了RL训练的Scaling Laws，RL训练涌现“aha”时刻。推理模型训练技术框架：4步法，有效解决了R1-Zero存在问题，将推理与对齐合为一体。强化学习训练框架：GRPO，来自DeepSeekMath，降低了强化学习训练成本。推理模型蒸馏：将大模型推理能力蒸馏到小模型，优于小模型直接进行推理训练（规模效应）。

推理模型 | R1-Zero

1. 强化学习训练规模大业内通常训练几十RL steps，DeepSeek训练几千RL steps Tülu 3 最大发布模型只训练了~50 RL steps 2. RL Training Scaling Law：涌现reflection、aha 自动涌现出搜索、反思、顿悟、纠错与testing-time scaling law一致，可从性能增长曲线和长度增长曲线推出推理时scaling law 3. 通过prompt策略引导模型思考和给出答案，避免基座模型不能生成停止符使用标记

创新程度

DeepSeek R1是在探明方向（OpenAI o1引领和证实的方向）上进行0-1的创新突破，独立探索出基于大规模强化学习的大语言模型推理技术路线，避开了过去一年多（自OpenAI的Q*在社交媒体讨论）业内广泛思索的通过在训练中进行显式搜索、过程奖励模型（即Search+PRM）实现推理的“误区”；贡献：独立探索出推理技术路线。将技术路线公开发布（解惑了业内的“不知”）。模型开源（MIT License） DeepSeek R1打破了美国第一梯队企业以闭源形成的技术护城河，进一步动摇了美国的“AI Dominance”。

2.DeepSeek效应

DeepSeek：效应——认知误区

如果ChatGPT刷新了我们对AI的认知，那么DeepSeek在某种程度上颠覆了：美国人对中国AI水平的认知：长久以来，美国认为中国在AI科技创新上更多是跟随者角色。大模型研发成本的认知：大模型研发成本需要数千万乃至上亿美元。

DeepSeek：效应——创新&人才&Vision

DeepSeek V3和R1的创新，从技术上看，是在探明方向上的较大创新，相比别人同期做的1-100要更创新，笔者将其定义为探明技术方向上的0-1创新（独立探索出技术路线），但不是颠覆了原有技术框架或者开辟了新的方向。探明方向上的0-1创新，如果有足够多的第一类人才，加上足够多的算力和高超的人才管理，是可以实现的，DeepSeek的成功正是得益于此；技术方向已经被探明了的“追赶”相对容易，难的是在前面面向未知开路，即在未探明方向、未有概念上进行0到1创新、或者进行概念形成和验证，这方面的创新是要更多胆量、更多vision、更多不计成本投入才能做到的，同时需要第二类人才与第一类人才紧密合作，形成双反馈；来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破；我国如果要在2030年实现 “人工智能理论、技术与应用总体达到世界领先水平”，需要更多企业、高校、研究机构开展探明方向和未探明方向上的0-1创新；

参考报告

深度解读DeepSeek：原理与效应.pdf

深度解读DeepSeek：原理与效应。生成式AI：使用生成式模型生成各类数据（语言、语音、图片、视频等）。Attention：数据依存关系建模。Transformer：数据生成的统一架构。ScalingLaws：数据学习、生成的扩展法则。RLHF：生成与人类价值对齐的数据。o1/R1：生成式求解问题——生成问题求解的过程和答案（推理）。

查看详情

DeepSeek技术创新与效应分析

1.DeepSeek：技术创新

2.DeepSeek效应

深度解读DeepSeek：原理与效应.pdf

DeepSeek核心优势及模型突破分析

DeepSeek突破下的影响有哪些？

如何理解DeepSeek的技术创新？

DeepSeek对全球AI产业链发展趋势有哪些影响？

DeepSeek成立背景、发展历程、开源战略及技术创新要点在哪？

DeepSeek发展沿革、产品推出及使用分析

DeepSeek突破的意义在哪？

如何看待DeepSeek的发展？

DeepSeek优化资配模型过程与未来改进方向分析

DeepSeek技术创新对智能驾驶的意义在哪？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王