2025年深度解读DeepSeek:原理与效应
- 来源:天津大学自然语言处理实验室
- 发布时间:2025/02/14
- 浏览次数:1025
- 举报
深度解读DeepSeek:原理与效应.pdf
深度解读DeepSeek:原理与效应。生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等)。Attention:数据依存关系建模。Transformer:数据生成的统一架构。ScalingLaws:数据学习、生成的扩展法则。RLHF:生成与人类价值对齐的数据。o1/R1:生成式求解问题——生成问题求解的过程和答案(推理)。
大语言模型发展路线图
生成式AI:2014 —— 2024
生成式AI:使用生成式模型生成各类数据(语言、语音、图片、视频等) 。 Attention:数据依存关系建模 。Transformer:数据生成的统一架构。 Scaling Laws:数据学习、生成的扩展法则 。 RLHF:生成与人类价值对齐的数据 。 o1/R1:生成式求解问题——生成问题求解的过程和答案(推理)。
DeepSeek V2-V3/R1技术原理
天边的两多云(国内外现状) : 模型架构:大部分企业采用已验证架构(试错成本高昂)【不敢】 。 推理模型:大部分实验室仍在苦苦猜测摸索Q*/o1(OpenAI保密)【不知】。
DeepSeek:技术创新——模型架构 | V2
DeepSeekMoE o 稀疏激活:计算不随规模呈线性增长 o 相比传统MoE:细粒度专家(共享+路由)。路由&通信改造: Device-Limited Routing; Auxiliary Loss for Load Balance; Token-Dropping Strategy。
DeepSeek:技术创新——创新程度
DeepSeek V2-V3及R1在模型架构上选择稀疏MoE模型而非稠密模型,并进行和积 累了大量技术创新,包括MLA、FP8训练、MoE All-to-All通信瓶颈解决、MTP等, 这些技术并不是所有都是原始创新,但是能够进行如此多大模型架构底层创新的实 验室,在全世界可能也只有少数几个; DeepSeek所有模型架构上的创新均是围绕“降本增效”:在基本不损害性能前提 下,尽可能通过算法挖掘和提升硬件训练和解码效率。 美国采取芯片禁令(全球三级管控)策略维持自己的AI领导地位,DeepSeek算法 绕过了美国的算力护城河。
DeepSeek:技术创新——推理模型 | R1
DeepSeek R1主要创新。DeepSeek-R1-Zero:大规模RL训练,发现了RL训练的Scaling Laws,RL训练涌现“aha”时刻 。 推理模型训练技术框架:4步法,有效解决了R1-Zero存在问题,将推理与对齐合为一体 。强化学习训练框架:GRPO,来自DeepSeekMath,降低了强化学习训练成本 。推理模型蒸馏:将大模型推理能力蒸馏到小模型,优于小模型直接进行推理训练(规模效应)。
DeepSeek:技术创新——创新程度
DeepSeek R1是在探明方向(OpenAI o1引领和证实的方向)上进行0-1的创新突 破,独立探索出基于大规模强化学习的大语言模型推理技术路线,避开了过去一年 多(自OpenAI的Q*在社交媒体讨论)业内广泛思索的通过在训练中进行显式搜索、 过程奖励模型(即Search+PRM)实现推理的“误区”; 贡献: 独立探索出推理技术路线。将技术路线公开发布(解惑了业内的“不知”) 。 模型开源(MIT License) DeepSeek R1打破了美国第一梯队企业以闭源形成的技术护城河,进一步动摇 了美国的“AI Dominance”。
DeepSeek效应
DeepSeek:效应——认知误区
如果ChatGPT刷新了我们对AI的认知,那么DeepSeek在某种程度上颠覆了: 美国人对中国AI水平的认知:长久以来,美国认为中国在AI科技创新上更多是跟随者角色。 大模型研发成本的认知:大模型研发成本需要数千万乃至上亿美元。
DeepSeek:效应——创新&人才&Vision
DeepSeek V3和R1的创新,从技术上看,是在探明方向上的较大创新,相比别人同期做的1-100要 更创新,笔者将其定义为探明技术方向上的0-1创新(独立探索出技术路线),但不是颠覆了原有技 术框架或者开辟了新的方向。探明方向上的0-1创新,如果有足够多的第一类人才,加上足够多的算 力和高超的人才管理,是可以实现的,DeepSeek的成功正是得益于此; 技术方向已经被探明了的“追赶”相对容易,难的是在前面面向未知开路,即在未探明方向、未有概 念上进行0到1创新、或者进行概念形成和验证,这方面的创新是要更多胆量、更多vision、更多不 计成本投入才能做到的,同时需要第二类人才与第一类人才紧密合作,形成双反馈; 来实现AGI可能还需要3-5个在未探明方向上进行0-1的创新突破;我国如果要在2030年实现 “人工 智能理论、技术与应用总体达到世界领先水平”,需要更多企业、高校、研究机构开展探明方向和未 探明方向上的0-1创新;
报告节选:



(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
-
标签
- DeepSeek
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 清华大学DeepSeek从入门到精通.pdf
- 2 普通人如何抓住DeepSeek红利.pdf
- 3 Deepseek+外经贸企业创新突围讲义精华全版.pdf
- 4 人工智能专题报告:DeepSeek研究框架.pdf
- 5 人工智能行业专题分析:比较试用DeepSeek看模型走向应用的新迹象.pdf
- 6 Deepseek相关产业专题分析:国产AI应用的“诺曼底时刻”.pdf
- 7 汽车行业专题研究:DeepSeek对智能驾驶影响几何?.pdf
- 8 20250215-清华大学-:DeepSeek+DeepResearch,让科研像聊天一样简单
- 9 DeepSeek R1深度解析及算力影响几何.pdf
- 10 AI+医疗行业专题报告:DeepSeek系列报告之AI+医疗.pdf
- 1 Deepseek+外经贸企业创新突围讲义精华全版.pdf
- 2 博睿数据2025从运维提效到LLMOps如何用DeepSeek铺就大模型可观测性进阶之路.pdf
- 3 2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf
- 4 浙江大学DS系列专题:DeepSeek技术溯源及前沿探索.pdf
- 5 浦东教育发展研究院:浦东新区中小幼教师 DeepSeek等大模型使用指南v1.0.pdf
- 6 计算机行业专题研究:DeepSeek重构算力基建长期价值的认知.pdf
- 7 AI赋能资产配置专题报告:DeepSeek解读中央政治局经济工作会议.pdf
- 8 2025年DeepSeek实用指南1.0版.pdf
- 9 2025从DeepSeek到品牌跃迁AI之于品牌的机遇与挑战报告.pdf
- 10 通信行业专题研究:DeepSeek算力效率提升≠算力通缩,国产算力需求方兴未艾.pdf
- 没有相关内容
- 全部热门
- 本年热门
- 本季热门
- 1 2025年DeepSeek大模型如何助力投研?
- 2 DeepSeekManus与AIAgent行业现状报告
- 3 2025年用DeepSeek优化价量因子
- 4 从Deepseek到Manus:Al如何重塑企业价值报告
- 5 Deepseek对中国算力产业的影响
- 6 北京大学-DeepSeek原理与落地应用
- 7 北京大学-DeepSeek私有化部署和一体机
- 8 DeepSeek企业落地应用讲义精华全版
- 9 北京大学-DeepSeek内部研讨系列:DeepSeek与AIGC应用
- 10 2025年深度解读DeepSeek:部署、使用、安全
- 1 2025年DeepSeek大模型如何助力投研?
- 2 DeepSeekManus与AIAgent行业现状报告
- 3 2025年用DeepSeek优化价量因子
- 4 从Deepseek到Manus:Al如何重塑企业价值报告
- 5 Deepseek对中国算力产业的影响
- 6 北京大学-DeepSeek原理与落地应用
- 没有相关内容
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
