2025年Deepseek背景综述及在金融领域应用场景初探

  • 来源:中邮证券
  • 发布时间:2025/02/27
  • 浏览次数:1015
  • 举报
相关深度报告REPORTS

Deepseek背景综述及在金融领域应用场景初探.pdf

Deepseek背景综述及在金融领域应用场景初探。DeepSeek背景及模型迭代DeepSeek-R1模型上线后引发现象级讨论,用户增长速度全球第一。而如此高关注度背后是DeepSeek-R1模型低成本、高性能的超强技术路径,我们从DeepSeek最早的LLM模型开始,以时间顺序,从理论研究和模型产品迭代两个维度对DeepSeek的发展进行了梳理,并通过对比展示了DeepSeek如何以低成本训练达到高性能推理的效果。DeepSeek使用入门及接入第三方平台梳理随着DeepSeek-R1模型的出圈,DeepSeek日活用户快速超越2000万,这对DeepSeek官方服务器造成了显著的压力。与此同...

1 DeepSeek 背景介绍

1.1 DeepSeek 上线后引发现象级讨论,用户增长速度全球第一

DeepSeek-R1 模型于 2025 年 1 月 20 日上线,随即引发了大量讨论与用户的快速增长。截至 2025 年 1 月 31 日,DeepSeek 日活跃用户就已经突破了 2000 万,一举超过豆包成为国产日活用户最多的大模型,同时也成为全球用户增长最快的 AI 产品。

DeepSeek-R1通过混合专家(MoE)架构与动态路由技术,将推理成本压缩至GPT4 Turbo 的 17%,低成本、高性能的叠加使得需求端爆发式增长:一方面网页端及手机端应用频频出现服务器拥挤无法返回答案情况;另一方面各大企业争先本地化部署 DeepSeek 大模型。DeepSeek-R1 模型的问世不仅刷新了 AI 应用的普及速度,更标志着大模型竞争从“算力军备竞赛”向“终端侧普惠化”的转向。 我们认为 DeepSeek-R1 模型在 2025 年 1 月引发的轰动只是中国 AI 行业快速发展的开始,伴随着低成本高性能大模型在各行各业落地部署以及在不同应用场景下对于 AI 大模型应用的开发,DeepSeek-R1 将会在更多领域展现出更大的影响力。

1.2 DeepSeek 发展沿革

DeepSeek 公司成立于 2023 年,是一家专注于 AGI 的科技公司,虽然 DeepSeek 与其他国内大模型公司相比发展不算早,但是受益于强大的算力支持与研究人才底蕴,在 2024 年飞速发展,不断推出了 DeepSeek LLM、DeepSeek-V2 以及 DeepSeekV3 等产品,并在 2025 年 1 月上线 DeepSeek-R1 这一现象级 AI 产品。

在 DeepSeek 所有研究成果中,最重要的四篇论文是《DeepSeek LLM: Scaling Open-Source Language Models with Long termism》,《DeepSeek-V2:A Strong, Economical, and Efficient Mixture of-Experts Language Model》,《DeepSeekV3 Technical Report》以及《DeepSeek-R1: Incentivizing Reasoning Capability in LLM is via Reinforcement Learning》,下面我们将简单梳理以上四篇论文的核心贡献。

1.3 DeepSeek LLM

DeepSeek LLM 模型发布于 2024 年 1 月,该论文主要涵盖模型训练、缩放定律研究、对齐优化及评估等工作。

扩展法则(Scaling Laws)

扩展法则,通常用于阐释模型性能与模型规模、训练数据规模、计算资源规模之间的联系,即随着这三者的增大,模型性能提升所呈现出的可预测规律。它指出,在增加模型参数、扩大训练数据量以及投入更多计算资源的情况下,模型性能往往会按照特定的、可预测的模式得到优化。

研究表明,数据质量在模型和数据的最优扩展分配策略中起着关键作用。具体来说,高质量数据会使增加的计算预算更多地向模型扩展倾斜。在 DeepSeek LLM 项目里,研究人员借助小规模实验,成功对大规模模型的性能做出准确预测。这一成果为模型的扩展方向提供了有力的指引,助力在模型开发过程中更合理地规划资源,提升模型性能。

1.4 DeepSeek-V2

主要介绍了 DeepSeek-V2 这一强大的混合专家(MoE)语言模型,同时设计了创新架构:采用 Transformer 架构,设计 Multi-head Latent Attention (MLA)。文章阐述了模型架构、预训练、对齐优化等工作,并展示了其在性能、训练成本和推理效率方面的优势。

多头潜在注意力机制(MLA)

通常情况下,传统的 Transformer 模型会运用多头注意力(MHA)机制。然而在模型生成内容的过程中,该机制的键值(KV)缓存却成了阻碍推理效率提升的关键因素。为了解决这一问题,研究人员提出了多 Query 注意力机制(MQA)和分组注意力机制(GQA)。而在这篇文章中,主要介绍了 MLA(Multi-Head Latent Attention)在性能表现上优于 MHA,并且在减少 KV 缓存数量方面效果显著。

混合专家模式(MoE)

混合专家模型(Mixture of Experts,简称 MoE)属于集成学习技术的一种,它的核心原理是整合多个 “专家” 模型的输出,以此来增强整体模型的性能表现。在MoE 的架构里,存在一个 “门控网络”(gating network),其主要职责是判断针对特定输入,应由哪一个或哪几个专家模型进行处理。每个专家模型都具备独特的能力,各自擅长处理输入空间中的特定部分内容,门控网络则依据输入的具体情况,将任务精准分配给最为匹配的专家。 MoE 的主要优势在于:1)在不显著提升计算成本的前提下,拓展模型的容量。这是由于在处理任意给定的输入时,仅有部分专家会被激活参与运算,避免了整体计算资源的过度消耗。2)让模型更“专业”。不同的专家可针对数据中的不同模式与特征进行学习,从而达成模型专业化,全方位提升模型的整体性能,让模型在复杂任务处理中表现更为出色。3)实现稀疏激活。借助门控机制,在运行过程中,仅让部分网络处于激活状态,这种方式极大地提高了模型的运行效率,减少了不必要的资源浪费。

算法 Group Relative Policy Optimization (GRPO)

在传统的强化学习方法里,像近端策略优化(PPO,Proximal Policy Optimization),一般都需要一个规模与策略模型(policy model)相近的 Critic 模型。Critic 模型的作用是对策略的好坏进行评估,以此为策略的优化提供方向。不过,训练 Critic 模型这一过程本身会额外增加计算成本。 而 GRPO 的关键优势就在于,它舍弃了传统的 Critic 模型,进而节省了训练过程中这部分的开销。从而降低强化学习(RL)训练成本。 GRPO 之所以可以舍弃 Critic 模型,是因为它借助了 “群体分数”(group scores)来估计基线(baseline)。基线主要用于衡量当前策略的平均表现,优势函数则体现了奖励值相较于基线的提升幅度。

1.5 DeepSeek-V3

这篇论文在 DeepSeek-V2 论文基础上介绍了 DeepSeek-V3 这一具有 6710 亿参数的混合专家语言模型,主要围绕模型架构、训练、评估及应用等方面展开研究,致力于提升开源模型性能,推动语言模型向通用人工智能发展。

多令牌预测(MTP)

Multi-Token Prediction 的目的在于,通过促使模型在每个位置对多个未来令牌进行预测,以此提升模型的性能表现。其核心原理是,通过加大训练信号的密度,帮助模型更有效地规划自身的内部表示,进而增强对后续令牌的预测能力。

FP8 混合精度训练框架

FP8 混合精度训练框架旨在通过降低数据精度来提升计算效率、减少内存占用和降低训练成本,同时尽量保持模型的性能和准确性。主要优点为:1)提高计算效率:FP8 计算所需的资源更少。尤其在 GPU 等硬件加速器上,计算速度可比 FP32 快数倍,能显著缩短训练时间。2)降低内存占用:FP8 数据占用的内存空间仅为 FP32 的四分之一,可支持更大规模的模型训练。3)保持模型精度:通过合理的混合精度策略,如在不同阶段使用不同精度的数据类型,FP8 训练可以保持与全精度训练相近的模型精度。

1.6 DeepSeek-R1

这篇论文主要介绍了 DeepSeek-R1 和 DeepSeek-R1-Zero 这两个推理模型,展示了通过强化学习提升语言模型推理能力的研究成果,并探索了模型蒸馏在提升小模型推理能力方面的应用。

Self-evolution Process of DeepSeek-R1-Zero and Aha Moment

DeepSeek-R1-Zero 模型的推理能力提升,不是人为教它该怎么做,而是通过强化学习,模型自己学会的。

冷启动(Cold Start)

研究人员在实验中发现,DeepSeek-R1-Zero 模型在训练初期时稳定性很差,为了解决这一问题,引入了“冷启动数据”。在 DeepSeek-R1 的强化学习环节开展之前,团队构建并收集了少量高质量的长思维链数据(long CoT data)。这些数据就如同为模型提供了一系列高质量的“范例”,使得模型在正式进入强化学习阶段前,预先掌握有效推理和生成答案的方法。这好比在跑步前,教练会先示范正确的跑步姿势与技巧,让学习者提前熟悉和适应。

1.7 DeepSeek-R1 训练成本对比

DeepSeek-R1 能够在极低训练成本下实现与 ChatGPT-o1 相当的性能,主要依赖于其创新的训练算法设计、硬件优化的注意力机制以及高效的数据利用策略。

2 DeepSeek 使用入门

2.1 DeepSeek-R1 常见访问途径

由于用户的快速增长,因此在使用 DeepSeek 网页端或手机应用时经常会出现“服务器繁忙,请稍后重试”的提示。

除了 DeepSeek 官方提供的网页端访问路径以及手机应用 app 端,我们还罗列了一些接入 DeepSeek 模型的第三方大模型服务平台,如网页端可以直接访问的国家超算互联网平台、未来会接入微信的腾讯元宝等;除此之外还有一些海外平台也已接入 DeepSeek 模型的服务平台,如模型托管在美国的 Perplexity.ai 等。在这些接入了 DeepSeek 大模型的平台中,也有一些平台提供了除对话外的辅助功能,如 Quora Poe 平台就可以进行模型比较,Ima 模型可以使用拖拉拽的方式快速构建本地知识库。

2.2 如何使用 API key 访问 DeepSeek 模型

除了访问已封装为 Chat-as-a-Service 服务的第三方大模型服务平台,还可以利用 API 对 DeepSeek 模型进行访问,此种方法前期准备工作相较于直接访问模式会更复杂一些,但是优点也是显著的,相较于直接访问使用 API 调用很少会出现服务器繁忙的问题,并且可拓展性更强,可以使用服务商提供的多种模型对原始大模型进行辅助。

3 DeepSeek 在普通人投资场景下的实例分析

3.1 利用 DeepSeek 了解自己的风险偏好

场景:没有投资经验的投资小白,在进行投资之前最重要的是了解自身的风险偏好,从而才能确定适合自己的投资理财产品以及投资策略。DeepSeek 可以通过对话测试的方式协助投资人了解自己的风险偏好。

3.2 利用 DeepSeek 找到适合自己的投资组合

场景:从没有接触过投资,想要进行一些投资,但是不知道如何选择适合自己的投资产品。这种情况下,可以利用 deepseek 辅助进行投资选择。

3.3 利用 DeepSeek 了解金融产品

场景:投资者想要通过常见的基金销售软件进行投资,但是金融产品种类繁多、名称专业,在投资之前想要了解一个基金成本较高,需要学习基金分类、底层资产、投资目标、投资期限、是否限购、基金费率等内容,如果想在几只基金中进行比较则更加困难。在这种情况下,可以利用 deepseek 快速了解金融产品。

3.4 利用 deepseek 学习投资策略,并使用策略优化现有组合

场景:投资人在前面的投资实践中看到了“卫星策略”、“安全垫”等字眼,发现这些都是策略的名称,了解到除了在资产选择环节需要科学,在交易、配置环节也需要科学的专业建议,但是系统学习成本太高,并且学习到的理论较难与实践结合。在此情境下,我们可以利用 deepseek 辅助我们进行投资选择。

3.5 利用 deepseek 辅助读懂公司报告

场景:投资人在进行股票投资的过程中,发现去读取上市公司年报等报告比较消耗实践,可以利用 deepseek 进行辅助。

3.6 逆向思维,让 DeepSeek 点评自己给出的答案,二次检验 DeepSeek 回答质量

由于大模型依然存在幻觉问题,且大模型的回答存在自由度,因此 DeepSeek-R1 的回答存在良莠不齐的可能。我们可以采用逆向思维,在 DeepSeek 给出回答后,让它对自己刚刚给出的答案进行评价,以达到二次检验以及拓宽问题视角的目的。

4 展望

毋庸置疑以 DeepSeek 为代表的大模型产品与工具已经极大的影响了投研工作,但是大模型与金融工作的结合领域依旧是一片亟需开拓的蓝海,不仅是受限于具体业务场景的开发不足,而且也受到专业数据不足的影响。对于具体业务场景的开发,不仅需要对于大模型本身的理解足够深入,也要对现有的业务有着敏锐的洞察力,才有可能可以找到用大模型赋能具体业务的场景。比如如何高效、可靠的将大模型用于投资领域,学界与产业界一直都有很高的讨论热度。而专业数据的问题,一方面是因为 DeepSeek 等大模型是通用类或逻辑类大模型,并不是应用于金融领域的专业小模型;另一方面,大模型擅长处理非结构化数据(文本、图片)而非金融工作中常用到的结构化数据也是难以把现有数据与大模型结合的挑战之一。我们认为该方向也会是未来大模型辅助金融工作重要的研究方向之一。 与此同时,目前对于大模型的开发,更多停留在 copilot 辅助工具级别,并没有完全开发利用大模型的推理能力。将大模型的逻辑推理能力、高维能力等与工程化项目相结合也是我们认为未来具有潜力的研究方向。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至