2025年DeepSeek大模型如何助力投研？

来源：信达证券
发布时间：2025/04/24
浏览次数：133
举报

相关深度报告REPORTS

DeepSeek大模型如何助力投研？.pdf

DeepSeek大模型如何助力投研？DeepSeek系列模型通过持续技术突破，在开源大模型领域树立了性能与成本效益的双重标杆。尤其在金融等垂直领域，其专业场景适配能力正重塑行业智能化转型的价值标准，为产业升级提供高性价比解决方案。性能对齐海外领军闭源模型，垂直领域应用价值凸显。通过持续技术创新，DeepSeek实现了开源大模型性能与国际顶尖闭源模型的全面对标。其显著的成本优势使其成为当前最具性价比的AI大模型之一，尤其适合金融等垂直领域。DeepSeek-V3：架构创新驱动效能跃升。优化的模型架构设计、多Token预测目标与FP8混合精度训练等技术亮点使模型在保持参数数量级优势的同时达成单位算...

一、DeepSeek 开源模型兼具高性能与高性价比

1.1、兼具高性能与高性价比，DeepSeek 开源模型引发市场关注

近日，DeepSeek 凭借其开源模型引发市场广泛关注，其性能表现对标国际顶尖模型，且通过技术创新与成本控制，DeepSeek 已成为当前最具性价比的 AI 大模型之一，尤其适合金融等垂直领域。性能对齐海外领军闭源模型：2024 年 12 月，DeepSeek-V3 首个版本上线并同步开源。DeepSeekV3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。2025 年 1 月，DeepSeek-R1 正式发布并同步开源模型权重。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有少量标注数据的情况下，大幅提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

高性价有望重塑行业竞争格局：根据技术文档所述，DeepSeek-V3 训练仅使用了 278.8 万 H800 GPU 小时，以每小时 2 美元的租赁价格测算，DeepSeek-V3 的训练仅使用了 557.6 万美金。DeepSeekV3 模型 API 服务定价为每百万输入 tokens0.5 元（缓存命中）/2 元（缓存未命中），每百万输出 tokens8 元，模型性能/价格比相对 GPT-4o 以及 Claude-3.5-Sonnet 等模型优势较大。DeepSeekR1 模型 API 服务价格远低于其他 o1 类推理模型。凭借其显著性价比优势，DeepSeek 有望引领行业竞争迈向新的格局。

模型持续更新，能力全面进阶：2025 年 3 月，DeepSeek-V3-0324 发布。根据 DeepSeek 官网信息，模型能力在多个关键方面均有所提升。(1)推理任务表现提高：新版 V3 模型借鉴 DeepSeek-R1 模型训练过程中所使用的强化学习技术，大幅提高了在推理类任务上的表现水平，在数学、代码类相关评测集上取得了超过 GPT-4.5 的得分成绩；(2)前端开发能力增强：在 HTML 等代码前端任务上，新版 V3 模型生成的代码可用性更高，视觉效果也更加美观、富有设计感；(3)中文写作升级：在中文写作任务方面，新版 V3 模型基于 R1 的写作水平进行了进一步优化，同时特别提升了中长篇文本创作的内容质量；(4)中文搜索能力优化：新版 V3 模型可以在联网搜索场景下，对于报告生成类指令输出内容更为详实准确、排版更加清晰美观的结果。此外，新版模型在工具调用、角色扮演、问答闲聊等方面也得到了一定幅度的能力提升。如非复杂推理任务，建议使用新版本 V3 模型。

1.2、DeepSeek-V3：多重技术亮点实现性能与性价比双重突破

优化的模型架构设计、多 Token 预测目标与 FP8 混合精度训练等技术亮点是 DeepSeek 模型高性能与高性价比的重要原因。为了实现高效推理与经济训练，DeepSeek-V3 基于 Transformer 框架，采用 Multi-Head Latent Attention（MLA）和 DeepSeekMoE 技术。

Multi-Head Latend Attention（MLA）：在注意力机制中，DeepSeek-V3 采用 MLA 架构，旨在优化 Transformer 模型中的多头注意力机制的效率，尤其是在推理阶段的内存占用和计算复杂度方面。MLA 通过低秩联合压缩键值等技术显著减少了内存占用和计算开销，同时保持了与标准 MHA 相当的性能。 DeepSeekMoE：在前馈神经网络层，DeepSeek-V3 采用 DeepSeekMoE 架构。对比传统 MoE 架构， DeepSeekMoE 使用更细粒度的专家，并将一些专家隔离为共享专家。为了在负载均衡和模型性能之间取得更好的平衡，DeepSeek 开创了一种无辅助损失负载均衡策略，通过动态路由调整与偏差项机制，实现了专家负载的高效均衡。 MTP（Multi-Token Prediction）：DeepSeek 为 DeepSeek-V3 研究并设定了多 Token 预测（MTP）目标，将预测范围扩展到每个位置的多个未来 Token。一方面，MTP 目标使训练信号致密，并可能提高数据效率。另一方面，MTP 可能使模型能够预先规划其表示形式，以便更好地预测未来 Token。

FP8 混合精度训练：在预训练中，为了有效扩展 FP8 格式的动态范围，DeepSeek 引入了一种细粒度量化策略。此外，为了进一步减少 MoE 训练中的内存和通信开销，DeepSeek 在 FP8 中缓存和分派激活，同时在 BF16 中存储低精度优化器状态。值得注意的是，与 BF16 基线相比，DeepSeek 的 FP8 训练模型的相对损失误差始终低于 0.25%，这一水平远在训练随机性的可接受范围内。

1.3、DeepSeek-R1：基于 DeepSeek-V3 的强大的推理模型

DeepSeek 第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1 模型的训练基于 DeepSeek-V3- base 模型。值得注意的是，DeepSeek-R1-Zero 模型通过大规模强化学习（RL）突破传统技术框架，无需监督微调（SFT）阶段即展现出了强大的推理能力。DeepSeekR1-Zero 展示了诸如自我验证、反思和生成长思维链（Chain-of-Thought, CoT）的能力，标志着研究界的重要里程碑。值得注意的是，这是第一项验证 LLMs 推理能力可以纯粹通过 RL 激励的开放研究，而无需 SFT。

为解决可读性差和语言混乱等问题，并进一步提高推理性能，同样基于 DeepSeek-V3-base 模型，DeepSeek 团队结合多阶段强化学习以及监督微调，最终训练出强大的 DeepSeek-R1 模型。 DeepSeek-R1 蒸馏模型：小模型也可以很强大。使用 DeepSeek-R1 生成的推理数据，DeepSeek 团队微调了几种在研究界广泛使用的密集模型。仅采用监督微调（SFT），蒸馏方法显著增强了小模型的推理能力。

二、网页对话实现智能服务体系

2.1、网页版 DeepSeek 访问渠道丰富

依托于其出色的语义理解能力，DeepSeek 能构建优秀的长思维链，生成连贯、自然且富有逻辑性的文本。除 DeepSeek 官网与官方 APP 以外，用户还可以通过第三方平台渠道体验 DeepSeek 模型。借助 DeepSeek 强大的自然语言处理能力，用户通过对话交互即可实现不同场景下的智能协作生态。

2.2、DeepSeek 官网实现智能问答与文档解析功能

通过 DeepSeek 处理新闻与舆情分析、文本综述等相关工作：借助 DeepSeek 官方对话网页，通过实时监控社交媒体、新闻平台等，快速收集相关文本数据，进行新闻和舆情分析。官网对话框下方两个可选项分别代表：（1）选中“深度思考(R1)”即为 DeepSeek-R1 模型，否则为 DeepSeek-V3 模型；（2）选中“联网搜索”能够获得时效性较强的网络信息。

通过 DeepSeek 进行文件处理工作：DeepSeek 官网支持多种文件类型，可以对上传文件进行处理，文件上传限制为单个文件不超过 100MB、单次最多 50 个文件。受用户量、算力需求激增等因素影响。DeepSeek 官网与 API 在过去一段时间内多次出现性能异常事件。

2.3、秘塔 AI 实现学术资源智能检索

秘塔 AI嵌入 DeepSeek-R1 深度思考功能，不仅可以限定搜索范围，例如学术中英文库与中文库，而且可以给出翔实的来源，降低来自大模型生成的幻觉。用户可以根据自身需求选择“简洁/深入/研究”模式。

利用秘塔 AI 搜索相关标的研报信息：选择 DeepSeek-R1 模型，结合用户自身需求选择不同模式，在给出相应回答的同时，秘塔 AI 还会给出详细的信息来源、相关事件、相关组织。

在文件处理方面，秘塔 AI 网页目前仅支持图片上传。

2.4、纳米 AI 实现可视化思维建构

纳米 AI是 360 旗下的 AI 助手产品，嵌入 DeepSeek-R1-联网 671B 模型。通过网页的对话，纳米 AI 不仅可以给出对话的答案，而且能够对原文选择不同风格进行改写。纳米 AI 在给出回答的同时生成思维导图，且对于回答原文或者思维导图的任一节点，都能通过鼠标点击，生成进一步的答案。

2.5、腾讯元宝擅长公众号内容调用

腾讯元宝嵌入了 DeepSeek-R1 模型。腾讯元宝可以通过微信登录，使用相对方便，支持多种文件的上传处理。在使用过程中，我们发现腾讯元宝与微信公众号文章联系紧密，其回答参考资料多为公众号内容。

2.6、DeepSeek 结合 Kimi+实现自动化办公输出

以“你是一个金融分析师，需要结合当前情况，完成一个 DeepSeek 助力金融投研的 PPT，请生成一个 PPT 大纲，并以 Markdown 格式输出”的 Prompt 为例，DeepSeek 网页生成相应 Markdown 格式的大纲并复制。

访问探索 Kimi+，点击 PPT 助手，将复制内容粘贴至对话框，Kimi+生成 PPT 内容，点击一键生成 PPT 并选择模板生成，我们可以获得相应的 PPT。

网页版 DeepSeek 更倾向于直接的用户交互，适合轻量级需求的个人用户，用户使用成本较低。DeepSeek 开源模型为第三方平台嵌入大模型提供便利，网页版 DeepSeek 的访问渠道日渐丰富

三、DeepSeek API 实现智能中枢构建

3.1、DeepSeek 模型可选 API 丰富

相比网页版 DeepSeek，DeepSeek API 具有更高的灵活性，可拓展性更强，成本相对较高，更适合开发者或者企业用户。在通过 API 接口直接调用大模型的过程中，用户可以根据自身需求对参数进行不同的设置。除 DeepSeek 官网提供的 API 以外，字节旗下火山引擎、腾讯云、阿里云百炼、硅基流动、国家超算平台均提供了 DeepSeek R1 接口。

根据 DeepSeek 官网提供信息：DeepSeek-V3 与 DeepSeek-R1 上下文长度为 64K，最大输出长度为 8K，如未指定 max_tokens，默认最大输出长度为 4K。DeepSeek API 的 temperature 参数默认为 1.0，用户可根据自身需求对温度进行设置。

3.2、以火山引擎为例使用 Deepseek API

访问火山方舟-火山引擎，注册后完成实名制认证。在左侧中模型推理选择在线推理，创建推理接入点（首次需开通模型）；点击确认接入进行 API 调用（首次需创建 API Key）。

点击推理接入点操作区的体验，我们可以获得与 DeepSeek 网页版相似的对话页面，且支持多种文件上传。

3.3、DeepSeek API 接入 Excel 与 Python

通过火山引擎 API key 及模型 ID，用户可以用 python 或 Excel VBA 访问 Deepseek 实现相关功能。

利用火山引擎应用(Bot) API 的联网插件实现联网功能：零代码创建应用，打开联网内容插件，可选联网资源类型包含联网资源、头条资源、抖音资源、墨迹天气，其中联网资源每月免费额度是 2 万次。

四、DeepSeek 本地部署条件与功能

4.1、DeepSeek 本地部署 GPU 估算

本地部署大模型具有保证数据隐私与安全、满足灵活的定制化需求、避免持续付费、减少网络传输延迟、离线依然可用等优势。本地部署适用于处理敏感数据、需要满足定制化需求、或者需合规性保障的用户，但是对于配置条件需要满足一定的要求。推荐通过 Ollama 进行本地大模型的部署，支持一键安装和模型管理，提供命令行及 WebUI 界面，适合快速部署。 Ollama 提供的 Deepseek-R1 为量化版本，通过降低数值精度来减少模型的存储空间按以及运行所需资源。

4.2、通过 Ollama 进行 DeepSeek 本地部署

下载安装 Ollama，默认安装于 C 盘，可以通过 “OllamaSetup.exe /DIR=D:\Ollama”指令安装于其他指定位置。 Ollama 安装要求：Win10 以上系统，4GB 以上空间（安装 Ollama 后，还需要额外的空间来存储大型语言模型，这些模型的大小可能从几十 GB 到几百 GB 不等）。在 Ollama 官网搜索相应的大模型，如 deepseek-r1，可以获得一系列模型，结合模型大小、本地条件等因素选择相应模型进行本地部署。

模型下载：以 deepseek-r1:14b 模型为例，复制模型右侧代码（如：ollama run deepseekr1:14b），在 ollama 运行的情况下，粘贴在 cmd 中部署指定模型。在未更新系统变量的情况下，模型下载于默认位置（如“C:\Users\XXX\.ollama\models”），否则下载于指定位置。

模型运行：以 deepseek-r1:14b 模型为例，与拉取模型的操作相同（如：ollama run deepseek-r1:14b），在 ollama 运行的情况下，粘贴在 CMD 中可与部署模型直接进行对话。可以看到，本地部署有思考过程，但是相对 671B 版本不够“聪明”，且没有联网。

4.3、利用浏览器插件实现联网、构建本地知识库

添加 Page Assist 浏览器插件：在 Edge 扩展商店搜索 Page Assist，点击获取，安装 Page Assist 扩展。利用 Page Assist 插件能够实现类似豆包插件的网页互动功能，进一步可以对插件设置联网功能以及构建本地知识库。

五、利用交互应用软件构建知识库

5.1、Cherry Studio 的使用方式

Cherry Studio是一款集多模型对话、知识库管理、AI 绘画、翻译等功能于一体的全能 AI 助手平台，支持本地部署模型与多平台 API 的调用。

5.2、Cherry Studio 嵌入模型配置

在构建知识库之前，我们需要配置嵌入模型，配置方式有本地部署与外部 API 两种。通过 Ollama 部署嵌入模型 bge-m3 或者 nomic-embed-text 模型。下载方式与前述模型相同：搜索相应模型，复制右侧代码下载模型。通过 Ollama 部署的模型需要在模型服务中打开 Ollama，点击下方管理,查找嵌入模型，找到需要的模型并添加。

通过 Jina AI 网站获得嵌入模型的 Api key。访问 Jina AI 官方网站, 无需注册即可直接复制 Api key 并获得免费的 tokens。在模型服务中打开 Jina，粘贴 Api key 即获得相应 Jina 模型。

5.3、Cherry Studio 构建本地知识库

创建知识库的同时需选定嵌入模型：在 Cherry Studio 左侧工具栏，点击知识库图标，即可进入管理页面；点击添加创建知识库；输入知识库的名称并添加嵌入模型，即可完成创建。如果对数据隐私有要求，建议使用本地嵌入数据库和本地大语言模型。

CherryStudio 支持多种方式添加文件至知识库，包括文件拖拽、文件夹目录、网址链接、站点地图、纯文本笔记；支持的文件格式包括 pdf，docx，pptx，xlsx，txt，md，mdx 等。文件添加后系统会自动进行向量化处理，当显示完成时（绿色 ✓），代表向量化已完成。知识库文件的处理流程如下：当文档被添加到 Cherry Studio 知识库之后，文件会被切分为若干个片段，嵌入模型会对这些片段进行处理。当用户使用大模型进行问答的时候，查询和问题相关的文本片段，一并交给大语言模型处理。

Cherry Studio 知识库选项支持 1-30 个文档，经过我们本地构建知识库的测试可知，文档数量较少时，知识库表现相对较好。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）