2025年DeepSeek十大关键问题解读

  • 来源:国海证券
  • 发布时间:2025/02/14
  • 浏览次数:623
  • 举报
相关深度报告REPORTS

DeepSeek十大关键问题解读.pdf

DeepSeek十大关键问题解读。DeepSeek探索出一条“算法创新+有限算力”的新路径,开源AI时代或已至,国产AI估值或将重塑。Q1:DeepSeek对于算力的影响?——Jevons悖论:短期训练侧算力需求或受影响,但DeepSeek推理价格下降吸引更多用户调用模型,带来英伟达H100GPU的租赁价格提升,故表明算力需求量短期仍呈提升趋势,中长期推理算力需求有望持续增长。Q2:文本与多模态对算力的需求差别?——多模态模型大规模应用,或将升级算力需求。Sora将大模型训练数据从大规模的文本/图像,发展到视频数据,提升了...

一 、DeepSeek十大关键问题解答

Q1:DeepSeek对于算力的影响?——Jevons悖论

AI的演进路径中,推理成本不断下降,计算效率持续提高是长期趋势。例如:据Semi a n a l y sis,算法进步的速度约为每年4次;Anthropic CEO Dario甚至认为,这一进步速度可能达到10倍。 Jevons 悖论:技术进步提高了资源使用效率,效率提高降低了资源使用成本,成本下降刺激了资源需求的增长,需求增长可能超过效率提升带来的节约,最终导致资源总消耗增加。 我们认为,短期训练侧算力需求或受影响,但De epSe ek推理价格下降吸引更多用户调用模型,带来英伟达H100 GPU的租赁价格提升,故表明算力需求量短期仍呈提升趋势,中长期推理算力需求有望持续增长。

Q2:文本与多模态对算力的需求差别?

多模态大模型是一种基于深度学习的机器学习模型,类似于人脑能够同时处理文本、声音、图像等不同类型的信息,多模态模型能够处理和整合“图像+文本” 、 “视频+音频” 、 “语音+文字”等多种模态的数据和信息,利用不同模态之间的互补和协同,来提高模型的全面感知和泛化能力,使其能够应对更多复杂的任务和场景,以实现更好的性能表现。 与传统的单模态模型相比,多模态对算力供给提出了更高的要求。急剧飙升的算法复杂度及工程难度、模型迭代下动辄千亿规模的参数量和远高于单模态模型的大量图片、文本和视频数据集,不仅需要消耗大量计算资源,对算力的速度、精度、性能等方面的要求也水涨船高。

Q3:对芯片未来格局的影响?

NV仍具备计算与生态护城河。我们认为,DeepSeek的成果使用低精度计算、模型侧发展MOE架构、使用PTX层,这些会带来预训练算力使用效率的提升,但是这些技术仍与NV生态紧密联系,NV护城河仍在。 模型训练算力使用效率提升,NV高等级芯片或主要用于探索AGI。根据《De epSe ek-V3 Te chni c a l Report》,模型的训练过程仅使用2048块H800,这表明使用A100、H800等相对低端的芯片可以实现类似OpenAI o1类似性能。这可能会影响英伟达2025年以后,B200 等最先进GPU的普及,Blackwell/Rubin 等最先进的 GPU 的用途,初期可能会被局限在探索下一代大模型(探索AGI)上。

Q4:De epSe ek系列模型为何引起轰动?——技术与开源

模型的优势点:我们认为,DeepSeek优化模型结构(MLA+MOE)、模型训练方法(DualPipe)、针对性GPU优化(FP8混合精度等)等内容,降低了训练成本,同时进行开源,各下游企业可以直接通过本地部署或云端调用,降低了调用成本。 De e p S e e k的轰动性:1)快速的技术突破:2 0 2 4年9月Op e nAI发布o 1模型,但是2 0 2 5年1月d e e p s e e k就推出类比OpenAIo1的De epSe ek R1,这改变海外对于国内模型能力与迭代速度的认知。2)开源:DeepSeek R1模型实现了开源,采用MIT协议,一定程度打破高级闭源模型的封闭生态。开源免费调用有助于先行占据市场份额,成为规则制定者,率先拓展生态粘性。

Q5:模型未来侧重Dens e还是Spar s e(MOE)?

MoE是大模型架构的一种,其核心工作设计思路是“术业有专攻”,即将任务分 门别类,然后分给多个“专家”进行解决。与MoE相对应的概念是稠密(Dens e) 模型,可以理解为它是一个“通才”模型。一个通才能够处理多个不同的任务,但 一群专家能够更高效、更专业地解决多个问题。

Q6:蒸馏模型的定义与发展潜力?

模型蒸馏作为一种更有效利用先进大语言模型能力的方法,引起了越来越多的关注。通过将知识从更大更强的LLM 迁移到更小的模型中,数据蒸馏成为了一个显著的后发优势,能够以更少的人工标注和更少的计算资源与探索来实现 SOTA 性能。  李飞飞s1-32B模型:据每日经济新闻报道,2月6日,李飞飞团队以不到50美元的云计算费用,成功训练出了一个名为s1-32B的人工智能推理模型。其方法是用从谷歌模型中提炼出来的1000个样本,然后对阿里通义千问(Qwen)模型进行微调而成。

Q7:多模态的演进路径?

AI大模型技术和应用逐渐从文本扩展至更多模态。多模态大一 统模型的理念最早由谷歌提出,Gemini 便是这一理念的代表之 作。其核心设计在于运用 Transformer 架构,将文本、图像、音 频等多种模态的数据进行统一处理,实现对不同模态信息的理解 与生成。

Q8:De epSe ek发生后对应用侧的影响?

核心观点:DeepSeek在推动降本、强推理等层面驱动下,有望加速AI应用普及度迎来跨越式提升。 云端算力是新的卖铲子公司。我们认为,无论是开源还是闭源模型,计算资源都很重要,如果云厂商基于计算资源打造上层服务或产品,那么计算资源的价值就有可能提升,这意味着更多的Capex流向硬件领域,软件也有望受益。 模型厂商:DeepSeek R1模型能力对标OpenAI o1,且开源,对于闭源模型厂商等或造成一定冲击,但其也可在此基础上训练。应用侧:我们认为,C端用户数据基础好、生态和产品力强、与AI结合度好的公司,B端行业市占率高、用户基数大、积累较多用户数据和产品案例的厂商,且具备AI结合能力的公司有望受益。

Q9:De epSe ek发布对于端侧的影响?

DeepSeek产品协议明确可“模型蒸馏” ,有望加速AI端侧落地。DeepSeek决定支持用户进行“模型蒸馏” ,已更新线上产品的用户协议,有望加速AI在端侧进程,未来手机、PC、小型设备等端侧或可部署。我们认为,除AI眼镜和AI手机外,机器人、电子狗、AR/VR设备后期有望迎来快速成长,大模型在端侧的应用发展之后,会进一步带动AI算力硬件的需求。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关标签
  • 相关专题
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至