DeepSeek公司基本面、模型迭代历程及研发团队情况如何？

提问时间：2025/03/13
浏览次数：291
提问者：匿名用户
举报
分享微信 QQ 微博

标签

DeepSeek

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/03/13 14:49

DS 不仅在推理模型上实现了突破，在多模态方面也保持了进步，并于近日开源发布了 Janus-Pro 多模态模型。

DeepSeek，全称“杭州深度求索人工智能基础技术研究有限公司”，简称“深度求索”，于 2023 年 7 月 17 日由幻方量化创立，位于杭州市拱墅区，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术，法定代表人、执行董事兼总经理为裴湉。 2024 年 1 月 5 日，该公司发布第一个大模型 DeepSeek LLM。之后，相继发布 DeepSeek-Coder、DeepSeek-VL、 DeepSeek V2、DeepSeek V3 等模型。其中，DeepSeek V2 模型因在中文综合能力评测中的出色表现，且以极低的推理成本引发行业关注，被称为“AI 界的拼多多”。2025 年 1 月 20 日，该公司正式发布 DeepSeek-R1 模型，并同步开源模型权重。DeepSeek-R1 性能逼近 OpenAI o1 正式版，推理成本却仅为 OpenAI o1 的几十分之一。1 月 27 日，DeepSeek 应用登顶苹果美国地区应用商店免费 App 下载排行榜，在美区下载榜上超越了 ChatGPT。同日，苹果中国区应用商店免费榜显示，DeepSeek 成为中国区第一。1 月 28 日，DeepSeek 发布开源多模态模型 Janus-Pro，其中 70 亿参数版本的 JanusPro-7B 模型在使用文本提示的图像生成排行榜中优于 OpenAI 的 DALL-E 3 和 Stability AI 的 Stable Diffusion。

2025 年 2 月 8 日，QuestMobile 数据显示，DeepSeek 在 1 月 28 日的日活跃用户数首次超越豆包，随后在 2 月 1 日突破 3000 万大关，成为截至 2025 年 2 月史上最快达成这一里程碑的应用。

中国初创企业深度求索（DeepSeek）研发大语言模型时据报绕过了美国人工智能巨头英伟达的 CUDA 框架，为 DeepSeek 在未来适配中国国产晶片做好准备。 DeepSeek 通过优化算法架构，显著提升了算力利用效率，打破了算力至上的传统认知。DeepSeek-R1 的惊艳之处是通过重新设计训练流程、以少量 SFT 数据+ 多轮强化学习的办法，在提高了模型准确性的同时，也显著降低了内存占用和计算开销。 DeepSeek-R1 的效果示意：更少的 GPU（或其他 AI 芯片）带来同样的效果高 DeepSeek-R1 提供了一种低成本训练的方法，而不是说只能通过低成本来进行训练。 DeepSeek-R1 反而通过优化，DeepSeek-R1 可能实现了算力与性能的近似线性关系。每增加一张 GPU，模型推理能力可稳定提升，无需依赖复杂的外部监督机制。这一特性直接验证了“算力即性能”的 Scaling Law，为 AI 芯片市场及 AI Infra 市场提供了明确的增量需求逻辑。

DS 不仅在推理模型上实现了突破，在多模态方面也保持了进步，并于近日开源发布了 Janus-Pro 多模态模型。基于 3 算法工程方面的优化，DS 能够实现性价比更高的模型推理能力（价格低、效率高、性能强、可部署在端侧平台），并有望以强大的推理能力和多模态感知能力，重塑机器人交互与决策，同时通过低成本、高效率的解决方案，加速具身智能的普及与应用。

DeepSeek 团队最大的特点之一就是年轻。团队成员中，应届生和在读生占据了相当大的比例，他们活跃在公司的各个项目和研究领域中。这些年轻人思维敏捷、充满活力，对新技术和新方法有着敏锐的洞察力和强烈的探索欲望，为 DeepSeek 的发展注入了源源不断的动力和创新活力。在 DeepSeek 团队中，来自清华大学和北京大学的应届生尤为突出。他们不仅在学术上有着扎实的功底和丰富的研究成果，而且在实际工作中也展现出了卓越的能力和潜力。许多关键的技术创新和项目成果，都离不开这些清北应届生的贡献。他们将所学知识与实际问题相结合，不断突破技术瓶颈，推动 DeepSeek 在 AI 领域的持续进步。有些团队成员从 DeepSeekLLMv1 开始就加入了公司，并一直参与到了 DeepSeek-v3 的开发和研究中。他们见证了 DeepSeek 大模型从无到有、从弱到强的全过程，积累了丰富的经验和深刻的理解。这些全程参与的成员，对 DeepSeek 的技术发展和产品 4 迭代起到了至关重要的作用，他们的经验和见解为公司未来的发展提供了宝贵的参考和指导。

1. 北京大学罗福莉罗福莉，女，95 后，出生于四川，本科就读于北京师范大学计算机专业，硕士毕业于北京大学计算语言学研究所计算语言学专业。罗福莉 2019 年曾在国际顶级会议 ACL 上发表 8 篇论文，其中 2 篇为第一作者。罗福莉的职业生涯始于阿里巴巴达摩院，罗福莉主导开发了多语言预训练模型 VECO，并推动了 AliceMind 的开源工作。2022 年，罗福莉转战 DeepSeek，参与了 MoE 大模型 DeepSeek-V2 的研发。 2024 年 12 月，网传罗福莉被小米创始人雷军以千万年薪招募，担任小米 AI 实验室的大模型团队负责人。12 月 31 日，罗福莉的高中班主任告诉红星新闻记者，罗福莉还没决定去小米，还在考虑。

2. 北京大学高华佐高华佐是 MLA 架构的关键创新者之一，他非常低调，目前只知道是北大物理系毕业。在 DeepSeek 团队中，高华佐凭借其扎实的物理基础和对 AI 技术的深刻理解，为 MLA 架构的提出和发展做出了重要贡献。他的创新思维和严谨态度，为 DeepSeek 的技术进步提供了有力的支持。另外，在“大模型创业六小强”之一阶跃星辰的专利信息中也可以看到高华佐的名字，虽然暂不确定是否是同一人，但这也从一个侧面反映出他在 AI 领域的影响力和活跃度。 3. 北京邮电大学曾旺丁曾旺丁来自北邮，研究生导师是北邮人工智能与网络搜索教研中心主任张洪刚。在 DeepSeek 团队中，曾旺丁主导了 GRPO 算法的研究和开发工作。他深入分析了强化学习中的关键问题和难点，提出了 GRPO 这一创新的算法，为 DeepSeek-Math 项目和整个强化学习领域的发展做出了突出贡献。曾旺丁的研究成果不仅在学术界得到了认可，也在实际应用中展现出了强大的潜力和价值。

4. 清华大学邵智宏邵智宏是清华交互式人工智能（CoAI）课题组的博士生，师从黄民烈教授。他的研究领域包括自然语言处理、深度学习等，特别对如何构建一个稳健且可扩展的 AI 系统感兴趣。在 DeepSeek 团队中，邵智宏参与了 DeepSeekMath 、 DeepSeek-Prover、DeepSeek-Coder-v2、DeepSeek-R1 等多个项目，为公司在自然语言处理和 AI 系统构建方面的发展做出了重要贡献。他之前还曾在微软研究院工作过，积累了丰富的研究和实践经验。

4. 北京大学朱琪豪在北京大学攻读博士期间，朱琪豪校友师从熊英飞副教授和张路教授，研究方向为深度代码学习技术，致力于探索 6 程序语言定义与深度学习技术的深度融合。他的科研成果在 ICSE、IJCAI、AAAI、ESEC/FSE、ASE 等国际顶级会议上频频亮相，共发表 CCF-A 类论文 16 篇。凭借基于语法制导的程序修复技术，他荣获 ESEC/FSE 2021 杰出论文提名奖，并多次斩获 ACM SIGSOFT 杰出论文奖。在博士阶段，朱琪豪校友不仅在学术上收获颇丰，还将研究成果成功应用于产业。他主导开发了国产开源代码大模型 DeepSeek-Coder-V1，达到国际领先水平，相关技术广泛应用于反编译、代码分析、代码修复等领域，受到全球学者和企业的高度关注。由此开发的修复工具 Recoder 在深度学习修复研究中首次超越传统方法，推动整个行业迈向深度学习的新时代。朱琪豪校友以其卓越表现，连续获得字节跳动奖学金、北京大学校长奖学金、国家奖学金及北京大学三好学生标兵等重量级荣誉。他的博士论文《语言定义感知的深度代码学习技术及应用》更是入选 2024 年 CCF 软件工程专业委员会博士学位论文激励计划，成为该领域具有里程碑意义的研究成果。

5. 北京大学代达劢除了 DeepSeek-V2 MLA 和 DeepSeekMath GRPO 这两项关键成果，值得一提的是，还有一些成员从 v1 就加入其中，一直到 v3。代表人物之一是代达劢，2024 年博士毕业于北京大学计算机学院计算语言所，导师是穗志方教授。 6. 北京大学王炳宣 7 北大元培学院的王炳宣，来自山东烟台，2017 年进入北大。硕士毕业后加入 DeepSeek，参与了从 DeepSeek LLM v1 开始的一系列重要工作。

7. 浙江大学梁文锋梁文锋，1985 年出生于广东湛江吴川，父母都是小学语文老师，这也使得他从小就成绩优异。“湛江发布”提及他一段成长往事：梁文锋性格很文静，但不是书呆子，在学习上很有自己的“一套方法”，初中时就学完了高中数学，甚至开始学大学数学。 2002 年，梁文锋以吴川一中“高考状元”的成绩考上浙江大学，本科就读电子信息工程专业，之后又继续攻读浙江大学信息与通信工程专业研究生。大学期间，梁文锋就与同学一起开始积累市场行情数据和探索全自动量化交易。2015 年，梁文锋硕士毕业后和几位浙大同学共同创立了量化对冲基金公司幻方量化，并于当年拿到第一张私募牌照，几年时间管理规模迅速超百亿。有意思的是，2016 年幻方量化便首次上线 AI 策略，并在之后实现投资策略全面 AI 化，同时也是国内唯一公开宣称拥有万张英伟达 A100 显卡的企业。大学时期梁文锋便坚信“AI 一定会改变世界”，这些都为后来投身 AI 埋下伏笔。转折点是 2023 年，全球 AI 大模型风起云涌，国内大佬纷纷宣布 AI 创业，梁文锋也是其中一员。那年 4 月，梁文锋宣布正式进军通用人工智能领域，“追寻一直以来的技术理想，超越投资去直面更大的课题”。很快， DeepSeek 在杭州应运而生同年 11 月，DeepSeek 发布了开源的代码大模型。

参考报告

deepseek大模型生态报告.pdf

deepseek大模型生态报告。DeepSeek，全称“杭州深度求索人工智能基础技术研究有限公司”，简称“深度求索”，于2023年7月17日由幻方量化创立，位于杭州市拱墅区，是一家创新型科技公司，专注于开发先进的大语言模型（LLM）和相关技术，法定代表人、执行董事兼总经理为裴湉。2024年1月5日，该公司发布第一个大模型DeepSeekLLM。之后，相继发布DeepSeek-Coder、DeepSeek-VL、DeepSeekV2、DeepSeekV3等模型。其中，DeepSeekV2模型因在中文综合能力评测中的出色表现，且以极低的推理成本引发行...

查看详情

DeepSeek公司基本面、模型迭代历程及研发团队情况如何？

deepseek大模型生态报告.pdf

DeepSeek核心优势及模型突破分析

DeepSeek突破下的影响有哪些？

如何理解DeepSeek的技术创新？

DeepSeek对全球AI产业链发展趋势有哪些影响？

DeepSeek成立背景、发展历程、开源战略及技术创新要点在哪？

DeepSeek发展沿革、产品推出及使用分析

DeepSeek突破的意义在哪？

如何看待DeepSeek的发展？

DeepSeek优化资配模型过程与未来改进方向分析

DeepSeek股权结构、发展方向、模型家族技术及影响有哪些？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王