2025年Deepseek背景综述及在金融领域应用场景初探
- 来源:中邮证券
- 发布时间:2025/02/27
- 浏览次数:1015
- 举报
Deepseek背景综述及在金融领域应用场景初探.pdf
Deepseek背景综述及在金融领域应用场景初探。DeepSeek背景及模型迭代DeepSeek-R1模型上线后引发现象级讨论,用户增长速度全球第一。而如此高关注度背后是DeepSeek-R1模型低成本、高性能的超强技术路径,我们从DeepSeek最早的LLM模型开始,以时间顺序,从理论研究和模型产品迭代两个维度对DeepSeek的发展进行了梳理,并通过对比展示了DeepSeek如何以低成本训练达到高性能推理的效果。DeepSeek使用入门及接入第三方平台梳理随着DeepSeek-R1模型的出圈,DeepSeek日活用户快速超越2000万,这对DeepSeek官方服务器造成了显著的压力。与此同...
1 DeepSeek 背景介绍
1.1 DeepSeek 上线后引发现象级讨论,用户增长速度全球第一
DeepSeek-R1 模型于 2025 年 1 月 20 日上线,随即引发了大量讨论与用户的快速增长。截至 2025 年 1 月 31 日,DeepSeek 日活跃用户就已经突破了 2000 万,一举超过豆包成为国产日活用户最多的大模型,同时也成为全球用户增长最快的 AI 产品。
DeepSeek-R1通过混合专家(MoE)架构与动态路由技术,将推理成本压缩至GPT4 Turbo 的 17%,低成本、高性能的叠加使得需求端爆发式增长:一方面网页端及手机端应用频频出现服务器拥挤无法返回答案情况;另一方面各大企业争先本地化部署 DeepSeek 大模型。DeepSeek-R1 模型的问世不仅刷新了 AI 应用的普及速度,更标志着大模型竞争从“算力军备竞赛”向“终端侧普惠化”的转向。 我们认为 DeepSeek-R1 模型在 2025 年 1 月引发的轰动只是中国 AI 行业快速发展的开始,伴随着低成本高性能大模型在各行各业落地部署以及在不同应用场景下对于 AI 大模型应用的开发,DeepSeek-R1 将会在更多领域展现出更大的影响力。
1.2 DeepSeek 发展沿革
DeepSeek 公司成立于 2023 年,是一家专注于 AGI 的科技公司,虽然 DeepSeek 与其他国内大模型公司相比发展不算早,但是受益于强大的算力支持与研究人才底蕴,在 2024 年飞速发展,不断推出了 DeepSeek LLM、DeepSeek-V2 以及 DeepSeekV3 等产品,并在 2025 年 1 月上线 DeepSeek-R1 这一现象级 AI 产品。

在 DeepSeek 所有研究成果中,最重要的四篇论文是《DeepSeek LLM: Scaling Open-Source Language Models with Long termism》,《DeepSeek-V2:A Strong, Economical, and Efficient Mixture of-Experts Language Model》,《DeepSeekV3 Technical Report》以及《DeepSeek-R1: Incentivizing Reasoning Capability in LLM is via Reinforcement Learning》,下面我们将简单梳理以上四篇论文的核心贡献。
1.3 DeepSeek LLM
DeepSeek LLM 模型发布于 2024 年 1 月,该论文主要涵盖模型训练、缩放定律研究、对齐优化及评估等工作。
扩展法则(Scaling Laws)
扩展法则,通常用于阐释模型性能与模型规模、训练数据规模、计算资源规模之间的联系,即随着这三者的增大,模型性能提升所呈现出的可预测规律。它指出,在增加模型参数、扩大训练数据量以及投入更多计算资源的情况下,模型性能往往会按照特定的、可预测的模式得到优化。
研究表明,数据质量在模型和数据的最优扩展分配策略中起着关键作用。具体来说,高质量数据会使增加的计算预算更多地向模型扩展倾斜。在 DeepSeek LLM 项目里,研究人员借助小规模实验,成功对大规模模型的性能做出准确预测。这一成果为模型的扩展方向提供了有力的指引,助力在模型开发过程中更合理地规划资源,提升模型性能。
1.4 DeepSeek-V2
主要介绍了 DeepSeek-V2 这一强大的混合专家(MoE)语言模型,同时设计了创新架构:采用 Transformer 架构,设计 Multi-head Latent Attention (MLA)。文章阐述了模型架构、预训练、对齐优化等工作,并展示了其在性能、训练成本和推理效率方面的优势。
多头潜在注意力机制(MLA)
通常情况下,传统的 Transformer 模型会运用多头注意力(MHA)机制。然而在模型生成内容的过程中,该机制的键值(KV)缓存却成了阻碍推理效率提升的关键因素。为了解决这一问题,研究人员提出了多 Query 注意力机制(MQA)和分组注意力机制(GQA)。而在这篇文章中,主要介绍了 MLA(Multi-Head Latent Attention)在性能表现上优于 MHA,并且在减少 KV 缓存数量方面效果显著。
混合专家模式(MoE)
混合专家模型(Mixture of Experts,简称 MoE)属于集成学习技术的一种,它的核心原理是整合多个 “专家” 模型的输出,以此来增强整体模型的性能表现。在MoE 的架构里,存在一个 “门控网络”(gating network),其主要职责是判断针对特定输入,应由哪一个或哪几个专家模型进行处理。每个专家模型都具备独特的能力,各自擅长处理输入空间中的特定部分内容,门控网络则依据输入的具体情况,将任务精准分配给最为匹配的专家。 MoE 的主要优势在于:1)在不显著提升计算成本的前提下,拓展模型的容量。这是由于在处理任意给定的输入时,仅有部分专家会被激活参与运算,避免了整体计算资源的过度消耗。2)让模型更“专业”。不同的专家可针对数据中的不同模式与特征进行学习,从而达成模型专业化,全方位提升模型的整体性能,让模型在复杂任务处理中表现更为出色。3)实现稀疏激活。借助门控机制,在运行过程中,仅让部分网络处于激活状态,这种方式极大地提高了模型的运行效率,减少了不必要的资源浪费。
算法 Group Relative Policy Optimization (GRPO)
在传统的强化学习方法里,像近端策略优化(PPO,Proximal Policy Optimization),一般都需要一个规模与策略模型(policy model)相近的 Critic 模型。Critic 模型的作用是对策略的好坏进行评估,以此为策略的优化提供方向。不过,训练 Critic 模型这一过程本身会额外增加计算成本。 而 GRPO 的关键优势就在于,它舍弃了传统的 Critic 模型,进而节省了训练过程中这部分的开销。从而降低强化学习(RL)训练成本。 GRPO 之所以可以舍弃 Critic 模型,是因为它借助了 “群体分数”(group scores)来估计基线(baseline)。基线主要用于衡量当前策略的平均表现,优势函数则体现了奖励值相较于基线的提升幅度。
1.5 DeepSeek-V3
这篇论文在 DeepSeek-V2 论文基础上介绍了 DeepSeek-V3 这一具有 6710 亿参数的混合专家语言模型,主要围绕模型架构、训练、评估及应用等方面展开研究,致力于提升开源模型性能,推动语言模型向通用人工智能发展。
多令牌预测(MTP)
Multi-Token Prediction 的目的在于,通过促使模型在每个位置对多个未来令牌进行预测,以此提升模型的性能表现。其核心原理是,通过加大训练信号的密度,帮助模型更有效地规划自身的内部表示,进而增强对后续令牌的预测能力。
FP8 混合精度训练框架
FP8 混合精度训练框架旨在通过降低数据精度来提升计算效率、减少内存占用和降低训练成本,同时尽量保持模型的性能和准确性。主要优点为:1)提高计算效率:FP8 计算所需的资源更少。尤其在 GPU 等硬件加速器上,计算速度可比 FP32 快数倍,能显著缩短训练时间。2)降低内存占用:FP8 数据占用的内存空间仅为 FP32 的四分之一,可支持更大规模的模型训练。3)保持模型精度:通过合理的混合精度策略,如在不同阶段使用不同精度的数据类型,FP8 训练可以保持与全精度训练相近的模型精度。
1.6 DeepSeek-R1
这篇论文主要介绍了 DeepSeek-R1 和 DeepSeek-R1-Zero 这两个推理模型,展示了通过强化学习提升语言模型推理能力的研究成果,并探索了模型蒸馏在提升小模型推理能力方面的应用。
Self-evolution Process of DeepSeek-R1-Zero and Aha Moment
DeepSeek-R1-Zero 模型的推理能力提升,不是人为教它该怎么做,而是通过强化学习,模型自己学会的。
冷启动(Cold Start)
研究人员在实验中发现,DeepSeek-R1-Zero 模型在训练初期时稳定性很差,为了解决这一问题,引入了“冷启动数据”。在 DeepSeek-R1 的强化学习环节开展之前,团队构建并收集了少量高质量的长思维链数据(long CoT data)。这些数据就如同为模型提供了一系列高质量的“范例”,使得模型在正式进入强化学习阶段前,预先掌握有效推理和生成答案的方法。这好比在跑步前,教练会先示范正确的跑步姿势与技巧,让学习者提前熟悉和适应。
1.7 DeepSeek-R1 训练成本对比
DeepSeek-R1 能够在极低训练成本下实现与 ChatGPT-o1 相当的性能,主要依赖于其创新的训练算法设计、硬件优化的注意力机制以及高效的数据利用策略。
2 DeepSeek 使用入门
2.1 DeepSeek-R1 常见访问途径
由于用户的快速增长,因此在使用 DeepSeek 网页端或手机应用时经常会出现“服务器繁忙,请稍后重试”的提示。
除了 DeepSeek 官方提供的网页端访问路径以及手机应用 app 端,我们还罗列了一些接入 DeepSeek 模型的第三方大模型服务平台,如网页端可以直接访问的国家超算互联网平台、未来会接入微信的腾讯元宝等;除此之外还有一些海外平台也已接入 DeepSeek 模型的服务平台,如模型托管在美国的 Perplexity.ai 等。在这些接入了 DeepSeek 大模型的平台中,也有一些平台提供了除对话外的辅助功能,如 Quora Poe 平台就可以进行模型比较,Ima 模型可以使用拖拉拽的方式快速构建本地知识库。
2.2 如何使用 API key 访问 DeepSeek 模型
除了访问已封装为 Chat-as-a-Service 服务的第三方大模型服务平台,还可以利用 API 对 DeepSeek 模型进行访问,此种方法前期准备工作相较于直接访问模式会更复杂一些,但是优点也是显著的,相较于直接访问使用 API 调用很少会出现服务器繁忙的问题,并且可拓展性更强,可以使用服务商提供的多种模型对原始大模型进行辅助。
3 DeepSeek 在普通人投资场景下的实例分析
3.1 利用 DeepSeek 了解自己的风险偏好
场景:没有投资经验的投资小白,在进行投资之前最重要的是了解自身的风险偏好,从而才能确定适合自己的投资理财产品以及投资策略。DeepSeek 可以通过对话测试的方式协助投资人了解自己的风险偏好。

3.2 利用 DeepSeek 找到适合自己的投资组合
场景:从没有接触过投资,想要进行一些投资,但是不知道如何选择适合自己的投资产品。这种情况下,可以利用 deepseek 辅助进行投资选择。
3.3 利用 DeepSeek 了解金融产品
场景:投资者想要通过常见的基金销售软件进行投资,但是金融产品种类繁多、名称专业,在投资之前想要了解一个基金成本较高,需要学习基金分类、底层资产、投资目标、投资期限、是否限购、基金费率等内容,如果想在几只基金中进行比较则更加困难。在这种情况下,可以利用 deepseek 快速了解金融产品。
3.4 利用 deepseek 学习投资策略,并使用策略优化现有组合
场景:投资人在前面的投资实践中看到了“卫星策略”、“安全垫”等字眼,发现这些都是策略的名称,了解到除了在资产选择环节需要科学,在交易、配置环节也需要科学的专业建议,但是系统学习成本太高,并且学习到的理论较难与实践结合。在此情境下,我们可以利用 deepseek 辅助我们进行投资选择。
3.5 利用 deepseek 辅助读懂公司报告
场景:投资人在进行股票投资的过程中,发现去读取上市公司年报等报告比较消耗实践,可以利用 deepseek 进行辅助。
3.6 逆向思维,让 DeepSeek 点评自己给出的答案,二次检验 DeepSeek 回答质量
由于大模型依然存在幻觉问题,且大模型的回答存在自由度,因此 DeepSeek-R1 的回答存在良莠不齐的可能。我们可以采用逆向思维,在 DeepSeek 给出回答后,让它对自己刚刚给出的答案进行评价,以达到二次检验以及拓宽问题视角的目的。
4 展望
毋庸置疑以 DeepSeek 为代表的大模型产品与工具已经极大的影响了投研工作,但是大模型与金融工作的结合领域依旧是一片亟需开拓的蓝海,不仅是受限于具体业务场景的开发不足,而且也受到专业数据不足的影响。对于具体业务场景的开发,不仅需要对于大模型本身的理解足够深入,也要对现有的业务有着敏锐的洞察力,才有可能可以找到用大模型赋能具体业务的场景。比如如何高效、可靠的将大模型用于投资领域,学界与产业界一直都有很高的讨论热度。而专业数据的问题,一方面是因为 DeepSeek 等大模型是通用类或逻辑类大模型,并不是应用于金融领域的专业小模型;另一方面,大模型擅长处理非结构化数据(文本、图片)而非金融工作中常用到的结构化数据也是难以把现有数据与大模型结合的挑战之一。我们认为该方向也会是未来大模型辅助金融工作重要的研究方向之一。 与此同时,目前对于大模型的开发,更多停留在 copilot 辅助工具级别,并没有完全开发利用大模型的推理能力。将大模型的逻辑推理能力、高维能力等与工程化项目相结合也是我们认为未来具有潜力的研究方向。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- samirtan:2025年DeepSeek指令公式大全.pdf
- 2025DeepSeek行业大模型算力网加速应用生态白皮书.pdf
- 布局到审查:基于DeepSeek建筑规划方案双重保障.pdf
- 2025年规划和自然资源行业应对DeepSeek浪潮的思考报告.pdf
- 2025年中国大模型一体机行业研究:DeepSeek大模型一体机如何破局行业发展.pdf
- 综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行.pdf
- 中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期.pdf
- 中国特色衍生品交易账户体系建设探索-金融市场研究.pdf
- 基于行为金融视角的A股市场月频动量效应失效原因与修正策略-金融市场研究.pdf
- 中国金融机构人才发展与培训白皮书(2026年).pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 清华大学DeepSeek从入门到精通.pdf
- 2 普通人如何抓住DeepSeek红利.pdf
- 3 Deepseek+外经贸企业创新突围讲义精华全版.pdf
- 4 人工智能专题报告:DeepSeek研究框架.pdf
- 5 人工智能行业专题分析:比较试用DeepSeek看模型走向应用的新迹象.pdf
- 6 Deepseek相关产业专题分析:国产AI应用的“诺曼底时刻”.pdf
- 7 汽车行业专题研究:DeepSeek对智能驾驶影响几何?.pdf
- 8 20250215-清华大学-:DeepSeek+DeepResearch,让科研像聊天一样简单
- 9 DeepSeek R1深度解析及算力影响几何.pdf
- 10 AI+医疗行业专题报告:DeepSeek系列报告之AI+医疗.pdf
- 1 Deepseek+外经贸企业创新突围讲义精华全版.pdf
- 2 博睿数据2025从运维提效到LLMOps如何用DeepSeek铺就大模型可观测性进阶之路.pdf
- 3 2025年华为昇腾服务器DeepSeek V3R1推理部署最佳实践技术报告.pdf
- 4 浙江大学DS系列专题:DeepSeek技术溯源及前沿探索.pdf
- 5 浦东教育发展研究院:浦东新区中小幼教师 DeepSeek等大模型使用指南v1.0.pdf
- 6 计算机行业专题研究:DeepSeek重构算力基建长期价值的认知.pdf
- 7 AI赋能资产配置专题报告:DeepSeek解读中央政治局经济工作会议.pdf
- 8 2025年DeepSeek实用指南1.0版.pdf
- 9 2025从DeepSeek到品牌跃迁AI之于品牌的机遇与挑战报告.pdf
- 10 通信行业专题研究:DeepSeek算力效率提升≠算力通缩,国产算力需求方兴未艾.pdf
- 1 科技新周期系列1:穿越泡沫,从技术革命到金融资本.pdf
- 2 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 3 A股量化择时研究报告:金融工程,AI识图关注中药、银行和红利.pdf
- 4 非银金融行业深度报告:海南全岛封关运作,跨境资管空间广阔.pdf
- 5 金融行业:金融业监管2025年度数据处罚分析及洞察建议.pdf
- 6 中国金融智能体发展研究与厂商评估报告 (2025).pdf
- 7 金融产品深度报告:广发中证传媒ETF(512980.SH),政策规范护航,AI产能兑现,低估值传媒ETF走向高质量增长.pdf
- 8 金融行业周报(20251214):公募销售新规落地,政银绑定深化下银行扩表动能有望复苏.pdf
- 9 5G环境下供应链金融解决方案.pdf
- 10 非银行金融行业研究:数字人民币专题,应用场景空间广阔,2.0时代将加速发展.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2025年DeepSeek大模型如何助力投研?
- 2 DeepSeekManus与AIAgent行业现状报告
- 3 2025年用DeepSeek优化价量因子
- 4 从Deepseek到Manus:Al如何重塑企业价值报告
- 5 Deepseek对中国算力产业的影响
- 6 北京大学-DeepSeek原理与落地应用
- 7 北京大学-DeepSeek私有化部署和一体机
- 8 DeepSeek企业落地应用讲义精华全版
- 9 北京大学-DeepSeek内部研讨系列:DeepSeek与AIGC应用
- 10 2025年深度解读DeepSeek:部署、使用、安全
- 1 2025年DeepSeek大模型如何助力投研?
- 2 DeepSeekManus与AIAgent行业现状报告
- 3 2025年用DeepSeek优化价量因子
- 4 从Deepseek到Manus:Al如何重塑企业价值报告
- 5 Deepseek对中国算力产业的影响
- 6 北京大学-DeepSeek原理与落地应用
- 7 北京大学-DeepSeek私有化部署和一体机
- 8 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 9 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 10 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
