DS 不仅在推理模型上实现了突破,在多模态方面也保 持了进步,并于近日开源发布了 Janus-Pro 多模态模型。
DeepSeek,全称“杭州深度求索人工智能基础技术研究 有限公司”,简称“深度求索”,于 2023 年 7 月 17 日由幻方 量化创立,位于杭州市拱墅区,是一家创新型科技公司,专 注于开发先进的大语言模型(LLM)和相关技术,法定代表 人、执行董事兼总经理为裴湉。 2024 年 1 月 5 日,该公司发布第一个大模型 DeepSeek LLM。之后,相继发布 DeepSeek-Coder、DeepSeek-VL、 DeepSeek V2、DeepSeek V3 等模型。其中,DeepSeek V2 模 型因在中文综合能力评测中的出色表现,且以极低的推理成 本引发行业关注,被称为“AI 界的拼多多”。2025 年 1 月 20 日,该公司正式发布 DeepSeek-R1 模型,并同步开源模型权 重。DeepSeek-R1 性能逼近 OpenAI o1 正式版,推理成本却 仅为 OpenAI o1 的几十分之一。1 月 27 日,DeepSeek 应用 登顶苹果美国地区应用商店免费 App 下载排行榜,在美区下 载榜上超越了 ChatGPT。同日,苹果中国区应用商店免费榜 显示,DeepSeek 成为中国区第一。1 月 28 日,DeepSeek 发 布开源多模态模型 Janus-Pro,其中 70 亿参数版本的 JanusPro-7B 模型在使用文本提示的图像生成排行榜中优于 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。
2025 年 2 月 8 日,QuestMobile 数据显示,DeepSeek 在 1 月 28 日的日活跃用户数首次超越豆包,随后在 2 月 1 日突 破 3000 万大关,成为截至 2025 年 2 月史上最快达成这一里 程碑的应用。
中国初创企业深度求索(DeepSeek)研发大语言模型时 据报绕过了美国人工智能巨头英伟达的 CUDA 框架,为 DeepSeek 在未来适配中国国产晶片做好准备。 DeepSeek 通过优化算法架构,显著提升了算力利用效率, 打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通 过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办 法,在提高了模型准确性的同时,也显著降低了内存占用和 计算开销。 DeepSeek-R1 的效果示意:更少的 GPU(或其他 AI 芯片)带来同样的效果高 DeepSeek-R1 提供了一种低成 本训练的方法,而不是说只能通过低成本来进行训练。 DeepSeek-R1 反而通过优化,DeepSeek-R1 可能实现了算力 与性能的近似线性关系。每增加一张 GPU,模型推理能力可 稳定提升,无需依赖复杂的外部监督机制。这一特性直接验 证了“算力即性能”的 Scaling Law,为 AI 芯片市场及 AI Infra 市场提供了明确的增量需求逻辑。
DS 不仅在推理模型上实现了突破,在多模态方面也保 持了进步,并于近日开源发布了 Janus-Pro 多模态模型。基于 3 算法工程方面的优化,DS 能够实现性价比更高的模型推理 能力(价格低、效率高、性能强、可部署在端侧平台),并有 望以强大的推理能力和多模态感知能力,重塑机器人交互与 决策,同时通过低成本、高效率的解决方案,加速具身智能 的普及与应用。
DeepSeek 团队最大的特点之一就是年轻。团队成员中, 应届生和在读生占据了相当大的比例,他们活跃在公司的各 个项目和研究领域中。这些年轻人思维敏捷、充满活力,对 新技术和新方法有着敏锐的洞察力和强烈的探索欲望,为 DeepSeek 的发展注入了源源不断的动力和创新活力。在 DeepSeek 团队中,来自清华大学和北京大学的应届生尤为突 出。他们不仅在学术上有着扎实的功底和丰富的研究成果, 而且在实际工作中也展现出了卓越的能力和潜力。许多关键 的技术创新和项目成果,都离不开这些清北应届生的贡献。 他们将所学知识与实际问题相结合,不断突破技术瓶颈,推 动 DeepSeek 在 AI 领域的持续进步。有些团队成员从 DeepSeekLLMv1 开始就加入了公司,并一直参与到了 DeepSeek-v3 的开发和研究中。他们见证了 DeepSeek 大模型 从无到有、从弱到强的全过程,积累了丰富的经验和深刻的 理解。这些全程参与的成员,对 DeepSeek 的技术发展和产品 4 迭代起到了至关重要的作用,他们的经验和见解为公司未来 的发展提供了宝贵的参考和指导。
1. 北京大学罗福莉 罗福莉,女,95 后,出生于四川,本科就读于北京师范 大学计算机专业,硕士毕业于北京大学计算语言学研究所计 算语言学专业。罗福莉 2019 年曾在国际顶级会议 ACL 上发 表 8 篇论文,其中 2 篇为第一作者。罗福莉的职业生涯始于 阿里巴巴达摩院,罗福莉主导开发了多语言预训练模型 VECO,并推动了 AliceMind 的开源工作。2022 年,罗福莉 转战 DeepSeek,参与了 MoE 大模型 DeepSeek-V2 的研发 。 2024 年 12 月,网传罗福莉被小米创始人雷军以千万年薪招 募,担任小米 AI 实验室的大模型团队负责人 。12 月 31 日, 罗福莉的高中班主任告诉红星新闻记者,罗福莉还没决定去 小米,还在考虑。
2. 北京大学高华佐 高华佐是 MLA 架构的关键创新者之一,他非常低调, 目前只知道是北大物理系毕业。在 DeepSeek 团队中,高华佐 凭借其扎实的物理基础和对 AI 技术的深刻理解,为 MLA 架 构的提出和发展做出了重要贡献。他的创新思维和严谨态度, 为 DeepSeek 的技术进步提供了有力的支持。另外,在“大模 型创业六小强”之一阶跃星辰的专利信息中也可以看到高华佐的名字,虽然暂不确定是否是同一人,但这也从一个侧面 反映出他在 AI 领域的影响力和活跃度。 3. 北京邮电大学曾旺丁 曾旺丁来自北邮,研究生导师是北邮人工智能与网络搜 索教研中心主任张洪刚。在 DeepSeek 团队中,曾旺丁主导了 GRPO 算法的研究和开发工作。他深入分析了强化学习中的 关键问题和难点,提出了 GRPO 这一创新的算法,为 DeepSeek-Math 项目和整个强化学习领域的发展做出了突出 贡献。曾旺丁的研究成果不仅在学术界得到了认可,也在实 际应用中展现出了强大的潜力和价值。
4. 清华大学邵智宏 邵智宏是清华交互式人工智能(CoAI)课题组的博士生, 师从黄民烈教授。他的研究领域包括自然语言处理、深度学 习等,特别对如何构建一个稳健且可扩展的 AI 系统感兴趣。 在 DeepSeek 团 队 中 , 邵 智 宏 参 与 了 DeepSeekMath 、 DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1 等多个 项目,为公司在自然语言处理和 AI 系统构建方面的发展做 出了重要贡献。他之前还曾在微软研究院工作过,积累了丰 富的研究和实践经验。
4. 北京大学朱琪豪 在北京大学攻读博士期间,朱琪豪校友师从熊英飞副教 授和张路教授,研究方向为深度代码学习技术,致力于探索 6 程序语言定义与深度学习技术的深度融合。他的科研成果在 ICSE、IJCAI、AAAI、ESEC/FSE、ASE 等国际顶级会议上频 频亮相,共发表 CCF-A 类论文 16 篇。凭借基于语法制导的 程序修复技术,他荣获 ESEC/FSE 2021 杰出论文提名奖,并 多次斩获 ACM SIGSOFT 杰出论文奖。在博士阶段,朱琪豪 校友不仅在学术上收获颇丰,还将研究成果成功应用于产业。 他主导开发了国产开源代码大模型 DeepSeek-Coder-V1,达 到国际领先水平,相关技术广泛应用于反编译、代码分析、 代码修复等领域,受到全球学者和企业的高度关注。由此开 发的修复工具 Recoder 在深度学习修复研究中首次超越传统 方法,推动整个行业迈向深度学习的新时代。朱琪豪校友以 其卓越表现,连续获得字节跳动奖学金、北京大学校长奖学 金、国家奖学金及北京大学三好学生标兵等重量级荣誉。他 的博士论文《语言定义感知的深度代码学习技术及应用》更 是入选 2024 年 CCF 软件工程专业委员会博士学位论文激励 计划,成为该领域具有里程碑意义的研究成果。
5. 北京大学代达劢 除了 DeepSeek-V2 MLA 和 DeepSeekMath GRPO 这两项 关键成果,值得一提的是,还有一些成员从 v1 就加入其中, 一直到 v3。代表人物之一是代达劢,2024 年博士毕业于北京 大学计算机学院计算语言所,导师是穗志方教授。 6. 北京大学王炳宣 7 北大元培学院的王炳宣,来自山东烟台,2017 年进入北 大。硕士毕业后加入 DeepSeek,参与了从 DeepSeek LLM v1 开始的一系列重要工作。
7. 浙江大学梁文锋 梁文锋,1985 年出生于广东湛江吴川,父母都是小学语 文老师,这也使得他从小就成绩优异。“湛江发布”提及他一 段成长往事:梁文锋性格很文静,但不是书呆子,在学习上 很有自己的“一套方法”,初中时就学完了高中数学,甚至开 始学大学数学。 2002 年,梁文锋以吴川一中“高考状元”的成绩考上浙 江大学,本科就读电子信息工程专业,之后又继续攻读浙江 大学信息与通信工程专业研究生。大学期间,梁文锋就与同 学一起开始积累市场行情数据和探索全自动量化交易。2015 年,梁文锋硕士毕业后和几位浙大同学共同创立了量化对冲 基金公司幻方量化,并于当年拿到第一张私募牌照,几年时 间管理规模迅速超百亿。有意思的是,2016 年幻方量化便首 次上线 AI 策略,并在之后实现投资策略全面 AI 化,同时也 是国内唯一公开宣称拥有万张英伟达 A100 显卡的企业。大 学时期梁文锋便坚信“AI 一定会改变世界”,这些都为后来 投身 AI 埋下伏笔。转折点是 2023 年,全球 AI 大模型风起 云涌,国内大佬纷纷宣布 AI 创业,梁文锋也是其中一员。那 年 4 月,梁文锋宣布正式进军通用人工智能领域,“追寻一直以来的技术理想,超越投资去直面更大的课题”。很快, DeepSeek 在杭州应运而生同年 11 月,DeepSeek 发布了开源 的代码大模型。