2025年大模型赋能投研专题报告:RAGFlow应用篇,如何结合结构化数据搭建本地智能投研系统?

  • 来源:国金证券
  • 发布时间:2025/05/12
  • 浏览次数:1036
  • 举报
相关深度报告REPORTS

大模型赋能投研专题报告:RAGFlow应用篇,如何结合结构化数据搭建本地智能投研系统?.pdf

大模型赋能投研专题报告:RAGFlow应用篇,如何结合结构化数据搭建本地智能投研系统?金融机构需求与RAG金融市场变化莫测,金融机构需要实时关注金融市场动向,在此过程中,金融机构面临大量文本类信息以及结构化的数据类型信息。对于多种类的大量信息,亟需大模型的参与进行辅助处理。在众多RAG开源架构中,我们选择了具有高质量解析检索特点的RAGFlow解决方案,针对其构建策略已经在《大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow原理篇》中进行了详细分析,核心优势体现在四个方面:(1)解析方面:通过开发者自主实现的DeepDoc实现高质量知识解析;(2)检索方面:使用&ld...

一、知识库与 RAGFlow 介绍

1.1 RAGFlow 与金融机构需求

金融市场变化莫测,金融机构需要实时关注金融市场动向,在此过程中,金融机构面临大 量文本类信息以及结构化的数据类型信息。对于多种类的大量信息,亟需大模型的参与进 行辅助处理。 随着 AI 技术的快速发展,DeepSeek 的开源推动大模型的发展向应用端转移。RAG 本地知 识库+大模型的架构方案受到更多关注,成为大模型实际应用场景落地的一条重要探索方 向。面对金融机构的复杂信息需求,RAG 知识库同样可以很好的提供辅助能力,为金融机 构的需求提供较好的解决方案。 在《大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow 原理 篇》的研究中,我们详细解析了 RAGFlow 的开源解析方案,针对其追求高质量解析检索的 “Quality in,Quality out”特性,拆解工作流程并进行深入分析。在本片报告中,我 们将在深入理解 RAGFlow 原理的基础上,进一步尝试其应用,从 RAGFlow 的部署、文档传 入、聊天助手设置等使用方式开始,以自定义的多信息融合 Agent 作为结束,对 RAGFlow 的整体工作流程进行实践。

1.2 什么是检索知识增强 RAG?

RAG(Retrieval-Augmented Generation)是一种检索知识增强策略,利用文本向量化模 型技术存储文本及语义信息,通过实时检索外部知识库并将检索到的内容传递给大模型, 为大模型提供更专业、更及时的信息,辅助大模型减弱“幻觉”。RAG 动态增强 AI 输出的 准确性和时效性,具有知识零延迟更新和知识来源可追溯的优点。 在 RAG 领域,目前已有多套开源解决方案,包括 RAGFlow、Dify、FastGPT 等开源项目。 各个项目之间侧重点不同,Dify 更注重于搭建可自主设计的 Agent 框架、FastGPT 则更注 重于提供快速适应的本地知识库。

而 RAGFlow 这一开源架构更关注文档解析与查询检索的质量,为本地知识库的搭建与使用 提供了一个相对完善的解决方案。为此,我们最终选择 RAGFlow 作为分析与应用的 RAG 架 构方案。

1.3 RAG 开源框架:RAGFlow

RAG 机构的整体工作流包括文档解析入库以及知识检索两个部分,在整个工作流程之中, RAG 架构存在不同的痛点问题,而 RAGFlow 开源架构对于不同的痛点问题给出了自己的解 决方案。 在“RAGFlow 原理篇”中,我们对 RAGFlow 进行了详细分析,对其痛点问题的解决方案以 及架构的整体优点进行分析,可划分为以下四个部分:

解析方面:通过开发者自主实现的 DeepDoc 实现高质量知识解析,对信息内容、格式 的不同进行分类,提供不同文档的定制化解决方案,实现高质量解析与分块。

检索方面:使用“关键词+向量”的双路搜索方式,并引入 Raptor 召回增强以及知识 图谱等策略提高检索质量;同时,使用重排序模型对于召回后的文本块进行进一步处 理,提高检索质量。

兼容方面:RAGFlow 支持结构化数据信息解析,可使用 Table 模型进行解析,可以将公司的财务报表等精确数据解析入库,并保留原本信息、数据对照关系,实现多模态 知识兼容。

使用方面:RAGFlow 提供 Agent 搭建框架,基于高质量知识库实现质量增强的自定义 工作流。

1.4 基于 RAGFlow 的应用实践

目前金融机构有大量希望大模型辅助解析的文本以及结构化数据,而 RAGFlow 本地知识库 的框架提供了一个相对完善的解决方案。 RAGFlow 框架的核心优势体现在四个方面: (1)通过 DeepDoc 解析器从文本源头分类处理实现高质量文本识别与分块 (2)通过“关键词文本搜索”+“词向量搜索”混合搜索的方式以及叠加 Raptor 文本聚 类提炼信息和知识图谱等检索增强的方式提升 RAG 检索准确度 (3)同时支持结构化数据处理,通过 Table 解析模式处理财务报表等表格数据传入本地 知识库,突破传统大模型对非结构化数据的依赖局限 (4)其通过搭建工作流的方式增强 text2SQL 能力,使得企业能直接通过原先成熟部署的 SQL 数据库直接调用给大模型进行研究分析 我们本次通过 RAGFlow 的框架搭建了有获取结构化数据能力的智能投研系统,已形成闭环 数据链路。其中包括四个组件: (1)三大财务报表通过 Table 解析入库构建企业基本面本地知识库; (2)通过 Text2SQL 组件实现实时调取所需的日行情以及相关研究报告; (3)通过 RAGFlow 内嵌的问财 Agent 实现简易的逻辑选股功能; (4)通过 RAGFlow 内嵌 AKshare 组件组件取实时新闻资讯。甚至可通过 RAGFlow 提供的 Python 接口实现更多维度的信息交互和组合,搭配研报生成模板完成投研信息动态更新。

二、RAGFlow 部署要求与方法

2.1 RAGFlow 的具体部署要求

RAGFlow 的运行依赖于 Linux 环境上的 Docker 容器,在进入正式的部署流程之前,需要 检查 Docker 容器是否能够正常运行,若目标环境中不存在 Docker 容器,需要首先安装 Docker,并确保 Linux(虚拟)环境下内存映射区域的最大数量参数“vm.max_map_count” 不小于 262144,否则需要重置参数。 RAGFlow 的部署对于软件环境与硬件配置有较高的要求。其中,对于内存(RAM) 的配置,若内存空间较少可选择开启虚拟内存满足使用要求。

在我们的实践部署与运行过程中,可以体会到 RAGFlow 对于内存空间(RAM)有着较高的 需求,我们建议配置运行 RAGFlow 的设备至少需要 32G 的内存空间(RAM)。对于内存较小 的机器而言,建议开启虚拟内存功能缓解压力。

2.2 RAGFlow 部署方法与实践

在 RAGFlow 的部署过程中,涉及到初始部署以及版本升级两个层面。在初始部署过程中, 需要以及完成克隆仓库、启动服务器以及确认状态三个步骤;而对于版本升级过程中,需 要依次完成克隆仓库、切换最新版本、更新文件信息以及更新并重启四个步骤。

若在使用过程中 RAGFlow 的任务程序出现问题,同样可以采取重新启动服务器的方式解决 可能存在的问题。

三、RAGFlow 入库与检索流程

3.1 RAGFlow 使用流程

对于 RAGFlow,其使用流程可划分为系统设置、文档入库、检索配置以及检索回答四个阶 段。在下文中,我们从 RAGFlow 的部署细节开始讲起,并根据 RAGFlow 的使用流程进行详 细说明。最终我们实际利用 RAGFlow 的高质量文本解析以及表格数据兼容的特性,以简单 的数据信息获取 Agent 为基础,搭建融合数据信息、文本信息以及互联网信息的多来源知 识融合的智能投研 Agent。

3.2 模型配置与系统配置

在 RAG 架构中,向量化(Embedding)模型负责在文本解析分块后将文字内容变为向量字 符串、重排序(Reranker)模型负责在检索后重新检测文本块相似度提高检索质量、而大 模型则负责知识的总结、回答输出。三个模型的选择与使用直接影响到 RAG 的最终使用效 果,RAGFlow 中提供了丰富的模型供应商接口支持,支持 API 与本地模型两种方式。

具体而言,以 DeepSeek 大模型为例,输入官方开发者平台提供的 API-Key 即可使用 DeepSeek 模型。在新部署的 RAGFlow 下,无法直接创建知识库,需要首先进行“系统模型 设置”,在完成模型接口设置的基础上,直接在对应的界面选择合适的模型即可。

需要首先在设置界面(点击头像),选择“模型提供商”栏,配置模型,并为 RAGFlow 配 置默认模型;系统设置界面中,“聊天模型”、“嵌入模型”为必须配置的模型类型,同样 推荐在此处配置重排序(Reranker)模型,提高 RAGFlow 的检索质量。

3.3 文档入库流程设置

3.3.1 文档入库之页面概览

进入 RAGFlow 后,会自动进入到主界面中,在主界面的右上角点击“创建知识库”,即可 开始知识库的相关配置工作:

点击后,即可进入知识库的配置界面,共需要完成“基础信息配置”、“可选参数配置”、 “RAPTOR 配置”以及“知识图谱配置”,这四块内容为文档解析入库设定想要的参数。

3.3.2 文档入库之解析配置

在创建知识库后,首先需要对基础信息进行配置,配置内容如下: (1)文档解析器:进行文档解析的组件,直接选择“DeepDoc”即可进行高质量解析。 (2)嵌入模型:根据评估测试,选择 SFR-Embedding-Mistral 模型效果较佳。

首先需要选择切片方式,各类解析方式以及使用类型如上表所示,其中,对于研究报告, 选择 General 方式、选择 512 作为块 Token 数限制时效果较佳。 具体而言,RAGFlow 通过“Table”类型的解析方式,可以很好的处理传入的表格类型结构 化内容。“Table”解析方式需要满足如下条件: (1)支持 XLSX 和 CSV/TXT 格式文件。 (2)对于 csv 或 txt 文件分隔符为 TAB,且第一行须是列标题。 Table 解析方式下:RAGFlow 识别表头结构和数据类型,表格的每一行作为独立文本块, 确保列名与值的映射关系。以下标位列,其表头为“数据时间”、“指数名称”、“指数代码”、 “指标代码”、“数值”、“更新时间“,RAGFlow 在解析过程中,会同时提取表头信息与某 一行的特定指标数值,并拼接在一起作为最终的文本块。此时数据以及数据所描述的含义 在文本块中得到了完整的展示。

3.2.3 文档入库之增强策略

RAGFlow 提供了 Raptor 召回增强以及知识图谱两种策略提高文档解析以及之后的检索质 量。两类策略的核心思想均在于尝试提取上下文信息或语义信息,弥补可能的信息损失。 首先,若选择了 Raptor 策略,需要配置对应的参数。具体而言,Raptor 召回增强策略是 一种高效的文本层次化组织策略,通过迭代式递归聚类算法实现。该策略对文本块进行递 归和层次化的聚类,然后利用 LLM 对聚类后的文本块生成摘要,可提高检索质量。

其次是知识图谱策略。RAGFlow 可选择使用知识图谱来改善对话效果,同样可以缓解问题 与答案之间的语义鸿沟。文件分块后,所有块将用于知识图谱生成,这对多跳和复杂问题 的推理大有帮助。

3.2.4 文档入库之文件传入

完成文档解析参数的配置后,即可进行文档传入。具体而言,点击“新建文件”即可进行 文件上传。文件上传完成之后,点击“解析”图表即可进行文档解析入库的过程。

在这一过程中,可以实现文件批量上传,并批量解析。但需要注意的是,RAGFlow 并不支 持文件传入后自动解析,需要待传入完成后手动操作,开始解析。

3.2.5 文档入库之设置元数据

除此之外,RAGFlow 支持为文档添加元数据,从而提高检索质量;可在传入文档之后进行 元数据设置;元数据为 json 格式,如果提示中包含此文档的任何块,元数据将伴随文本 块被输入到 LLM 中。

元数据是对某一个文档的整体描述,并在该文档的各个文本块中展示。在元数据中可明确 “发布时间”等重要信息,可提高问答过程中的精确程度。

3.3 检索配置流程设置

3.3.1 检索配置之页面概览

完成知识库的解析配置,并完成文档的传入解析后,可以进行聊天助手的配置。通过页面 上方的导航栏,点击“聊天”,即进入聊天助手配置的主页面。

在主页面中,点击左侧的“新建助理”,即可开始创建聊天助手、并配置参数的具体流程。

3.3.2 检索配置之助手设置

创建聊天助手的过程中,需要完成助手设置、提示引擎、模型设置三个部分的内容。首先 进行助手设置中相关参数的设置。

3.3.3 检索配置之提示引擎

其次进行提示引擎的参数配置,该界面关系到信息检索的质量。该界面需要配置的信息较 多,主要负责文本检索后的重排序以及文本块进入大模型的系列流程,是 RAGFlow 进行检 索问答的核心模块。

3.3.4 检索配置之模型设置

最后需要为 RAGFlow 的聊天助手配置大模型进行问答输出。对于大模型的选择,建议使用 不进行推理的 chat 模型,可以减少响应时间。对于模型的自由度,建议选择“精确”模 式(四个参数会自动配置)。

3.4 检索问答流程概览

3.4.1 检索问答之页面概览

进一步完成聊天助手的配置后,可以使用配置好的聊天助手,关联文档解析完成的知识库, 即可进行问答。通过大模型总结知识库中的信息,获得及时性强、准确率高的知识与信息 反馈。 具体而言,点击“+”按钮,即可使用该聊天助手创建一组新的对话。对于某个聊天助手 而言,可以创建的对话数量无限制。

3.4.2 检索问答之问答实例

在创建好知识库的基础上,通过聊天助手的配置后,便可开始进行对话问答。在聊天助理 中新建对话,输入问题后等待检索完成便可得到回答,回答中显示对应的知识来源。

使用在“原理篇”中的检测样本所创建的知识库,提出问题“如何通过改进 GRU 模型提升 选股策略的稳健性”,即可获得大模型的输出。同时输出中展示了具体的知识来源。

3.5 RAGFlow 推荐配置方案

在《大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow 原理 篇》,通过实际的测试与评估,可以给出推荐的参数配置方案,在此我们进行回顾,可以 在实际使用中参考以下方案:

具体而言,知识图谱所消耗时间较长,Raptor 召回增强策略所消耗时间较短,实际使用过程中可以对精确程度与时间成本之间进行平衡。

四、RAGFlow 的自动化应用

4.1 Python API 功能介绍

如前文所述,RAGFlow 的工作流程可以分为“文档解析入库”以及“知识检索输出”两个 部分。对于 Python API 的介绍同样遵从这样的工作流程划分。在《大模型赋能投研之七: 如何结合结构化数据搭建本地智能投研系统?-RAGFlow 原理篇》对 RAGFlow 所进行的批 量评估与检验的流程,均通过 Python API 实现,实践了文档传入、批量解析、API 问答、 API 获取召回的信息块等流程。

对于“文档解析入库”工作流,API 可以完成知识库管理、文件管理、解析管理、文本块 管理等功能。具体功能以及调用方法如上表所示。 对于“知识检索输出”工作流,API 可以完成聊天助手管理、会话管理以及交谈管理三个 主要的功能。

但同时,RAGFlow 的 Python API 并不十分完善。在文档解析入库、聊天助手创建等流程 中存在以上缺陷(v0.17.2 版本)。例如,解析入库时难以通过 Python API 开启 Raptor 策 略、难以开启知识图谱策略,聊天助手设置时难以开启 Deep Research 推理。整体的 Python API 使用有待进一步完善。

五、RAGFlow 项目运用实战

5.1 Agent 工作流需求与应用

金融机构面临大量的研究报告等文本类信息,以及报表、行情等数据信息,产生对大模型 辅助的需求。而 RAGFlow 可以基于高性能知识库进行工作流开发,可满足金融机构需求。

5.2 Text to SQL 基础工作流实现

5.2.1 Text to SQL 的普通流程

Text to SQL 指把文本转化为 SQL 语言,是一种把数据库领域下的自然语言问题,转化为 在关系型数据库中可以执行的结构化查询语言(SQL)的技术。

5.2.2 RAGFlow 辅助增强的工作流程

RAGFlow 基于本地知识库也提供了 Text2SQL 功能,通过知识库的支持可以提高 SQL 语言 准确率,满足用户使用自然语言提取数据的需求: 这样可以仅依赖现有的大模型即可提供 Text2SQL 能力,无需微调。需要引入 DB Description、Q->SQL 以及 DDL 三个知识库,辅助模型生成 SQL。

首先进行 DDL 知识库的创建,DDL 是指数据库的数据定义语言,具体而言,知识库中存入 数据表的 DDL 数据,包含但不限于表结构,表字段信息等等。在 DDL 知识库中需要提供准 确的所查询数据库的 DDL 数据,下图展示了知识库入库解析推荐配置以及入库文件的具体 示例,具体而言,分段标识符应当选择“;”。

其次进行 Q->SQL 知识库创建,Q->SQL 指问题与查询语句的对应关系文件。在 Text2SQL 生 成过程中,对大语言模型提供 samples 往往能提高生成的 SQL 语句的质量在 Q->SQL 知识 库中需要提供自然语言->对应的 SQL 语句的样例。根据要求,Q->SQL 需要在表格中以问答 对的形式进行组织。

最后进行 DB Description 知识库创建,DB Description 是指知识库字段详细描述文件。 DB Description 中包含数据库中表和列的详细描述依据详细的数据库各项描述信息,大 语言模型能够更加精准的将用户的问题转换为 SQL 语句。上表展示了创建 DB Description 的格式要求,应当设置分段标识符为“#”。

根据结构化数据表提取三个知识库相关信息,并完成入库解析后,即可准备开始 Text to SQL 流程,工作流会在运行中自动在不同知识库中检索相关信息。

5.2.3 Text to SQL 使用示例

在 RAGFlow 的具体实现中,工作流需要在上述的三个知识库中进行查询,并根据查询到的 信息传递给大模型,辅助大模型生成。

当提出问题“发布日在 2025-3-17 至 2025-3-21 之间报告的标题、摘要和内容”时,工作 流会生成回答,返回 SQL 语句:” SELECT infotitle, abstract, content FROM report_info WHERE infopubldate BETWEEN '2025-03-17' AND '2025-03-21';”

5.3 数据类信息获取工作流

5.3.1 数据问题的工作流基本架构

进一步解决金融机构对于结构化数据的大模型辅助需求,基于 RAGFlow 自主设计 Agent, 构建数据类信息获取工作流,综合处理结构化数据问题。具体而言,可以分为两类任务: 基础任务:根据用户问题自主从三大报表中提取相关数据,并进行展示与分析。 进阶任务:在三大报表的基础上,在流程中添加对股票日行情的检索支持。

5.3.2 数据信息获取工作流的实现细节

智能投研 Agent 的目标在于根据用户提问,智能查询相关数据,并返回具体取值和详细分 析。但简单的流程可能面临如下问题: 用户输入的问题可能较为复杂、可能涉及多个数据类型,需要合理处理复杂问题。用户输入的问题可能只需在个别数据集中查询,如何处理复杂问题是一大难点问题。 实际解决过程中,使用“分类组件”解决复杂问题:分类组件可以将用户的输入,按照预 先设定的规则划分为不同类别;利用组件特性,在流程中并行构建多个分类器;在针对特 定数据集知识库进行检索前,利用分类器判断是否必要;若某问题无需在利润表中查找相 关数据,则分类器会阻断利润表查询工作流。 在工作流设计中,分别针对 4 类知识库配置了 4 个分类器,从而处理复杂问题查询。具体 而言,设置的分类器均为二元分类器,二元分类器精度较高,保证用户可以得到必要信息; 同时针对不同流程分别判断,避免用户获得无关信息、带来额外噪声。

更进一步,通过分类器处理,输入的问题可以保证查询路径正确,但无法保证查询质量: 用户输入的问题常较为复杂,问题描述涉及多个目标变量。直接使用原始问题检索知识库,可能难以匹配得到合适结果。为此,在实际解决过程中,使用“生成组件”对用户问题进行重构,从而解决问题:  “生成组件”根据查询目标,将问题改写为更具针对性,提高检索质量。 “利润表”中的“生成组件”利用大模型将问题改写为针对利润表的查询 使用“生成组件”进行问题改写,可以提高问题改写得针对性:组件中可以利用 prompt, 人为定理问题改写的目标方向,确保改写的质量;同时,“生成组件”相较于常用的“问 题优化组件”效果更好。

5.3.3 数据信息获取工作流的效果评估

首先,使用针对性的问题进行演示与评估,针对性问题指针对某一个特定信息源的提问, 检测 Agent 是否会搜集到无关信息,以及信息的返回是否正确。

具体分析工作流的运作状态:分类器拦截了指向无关数据 集的工作流,确保 Agent 不会收集无关信息影响质量。 其次,进行多目标问题的评估,多目标问题指需要在不同数据集中搜索答案的问题,目的 在于检测 Agent 能否顺利在完整的信息源中检索:

具体而言,分类器没有错误得阻止问题检索相关答案,生成组件在基础问题上构造针对性 问题,从而确保 Agent 可以进行有效检索。

5.4 多信息源融合 Agent

5.4.1 预定义组件提供搭建支持

在数据类信息获取工作流的基础上,融入研报数据库提取,以及市场新闻获取功能,满足 金融机构的所谓需求。具体而言,利用 RAGFlow 中已经预定义的信息获取组件,可以是实 现多信息融合 Agent RAGFlow 中的内置进阶组件,包括“百度”、“DeepL”、“ExeSQL”、“问财”、 “AkShare”等组件,可以帮助用户获取互联网信息、获得及时性的新闻,或者帮助用户 实现与数据库等外部组件的交互。 在上文中实现的数据类信息获取工作流的基础上,进一步完善处理,引入“问财”组件以 及“AkShare”组件,分别获得股票、基金等广泛金融领域的信息,并从东方财富网站获取相应股 票的新闻信息。

通过多信息融合 Agent,可以通过大模型,判断用户提问的用意,分别从利润表、现金流 量表、资产负债表三大报表的结构化知识库中获得,或利用 Text to SQL 从股票日行情的 关系数据库中获得,又或是利用 Text to SQL 从研报库中提取报告;又或是利用组件从互 联网信息中提取有用知识。最终,工作流从各个模块汇聚在“整理输出”节点中,对多个 源头汇聚而言的繁多知识进行整理排列,并最终在前端输出。

5.4.2 RAGFlow 的具体实现与问答示例

利用搭建好的多信息源融合 Agent 进行测试,首先提问:“可以帮我查询一下在 2024 年 1 月发布的研报都有哪些吗?”,工作流选择了研究报告查询的分支,并 未在多余知识库中进行查询,并通过 Text to SQL 最终返回正确答案。

根据工作流的运转情况以及最终答案,Agent 对于问题的查询意图判断正确,在利润表与 资产负债表两个结构化知识库中进行检索,并最终输出到“整理输出”结点中,整理输出, Agent 的整体效果较好。

六、总结

面对金融市场的快速变化,金融机构面临着众多文本类以及结构化数据类的信息,亟需大 模型辅助分析。在此情况下,RAG 通过引入本地知识库为大模型提供准确、及时的额外信 息,缓解大模型信息滞后、存在“幻觉”等问题。在众多 RAG 架构中,我们选择了高质量 解析、检索的 RAG 架构,在《大模型赋能投研之七:如何结合结构化数据搭建本地智能投 研系统?-RAGFlow 原理篇》的研究中,我们详细解析了 RAGFlow 的开源解析方案,此处 我们将从部署、使用、实际问题解决等角度全流程进行 RAGFlow 的实践。 对于 RAGFlow 的部署,其项目网站给出了具体的流程步骤,我们对其进行了梳理总结。 RAGFlow 对部署对象的软件与硬件有一定的要求:RAGFlow 依赖于 Linux 环境上的 Docker 容器,基础要求 CPU >= 4 核、内存 >= 16GB、磁盘 >= 50GB,且要求 Docker 版本 >= 24.0.0、Docker Compose 版本 >= v2.26.1。在实际部署中,推荐使用内存 >= 32GB 的机 器进行部署,同时开启虚拟内存也是解决硬件配置不足的一个可行方案。

部署之后,可以依照“系统设置”、“文档入库”、“检索配置”以及“检索回答”的工作流 程开始 RAGFlow 的配置工作。具体而言,“系统配置“中需要配置大模型、向量化模型核 重排序模型;“文档入库”需要完成解析配置、文档传入、元数据设置、文档解析等步骤; “检索配置”需要完成聊天助理配置、提示引擎配置以及模型配置三个主要模型,之后便 可以成功创建聊天助手;在此基础上,可以最终进行“检索回答”相关的配置,首先选择 聊天助手并创建对话,之后输入问题便可获取回答。整个流程中所需配置数据较多,文中 给出了推荐的参数方案,但在实际使用过程中应根据具体情况进行调整。 在上述使用流程的详解中,配置过程较为繁琐。但与此同时,RAGFlow 提供了 Python API 功能,可以通过 Python API 实现文档传入、文档解析、船舰聊天助手、开启问答对话等 基础功能,同时可以通过合适的设置实现 Python 批量设置元数据。Python API 的使用我 们已经在《大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow 原理篇》中的检测过程内进行了充分的实践。但同时,Python API 存在无法开启 Raptor 策略、无法开启知识图谱、无法开始 Deep Research 等功能的缺陷,实际使用应当注意。 最终,基于 RAGFlow 以及其对结构化数据的高质量支持,我们针对金融机构的需求开始 Agent 的实践。首先,我们分析并实现了 RAGFlow 中知识库增强的 Text to SQL 工作流, 实现了较好的效果;其次,我们针对金融机构的核心需求,配置了对三大报表、股票日行 情两类数据进行查询的结构化数据信息工作流;最终,我们引入对研报库的查询,并利用 预定义的问财、Akshare 组件,实现融合信息 Agent。以上尝试均得到了较好的效果。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至