2024年逐鹿Alpha专题报告：基于数亿新闻上下文的本地RAG系统用于市场择时及行业轮动

来源：中信建投证券
发布时间：2024/04/12
浏览次数：605
举报

相关深度报告REPORTS

逐鹿Alpha专题报告：基于数亿新闻上下文的本地RAG系统用于市场择时及行业轮动.pdf

逐鹿Alpha专题报告：基于数亿新闻上下文的本地RAG系统用于市场择时及行业轮动。简介本文中，我们探索了将新闻数据与大型语言模型相结合的可能性，构建了一个本地化的RAG系统。该系统依托于大型语言模型的深度分析能力，对新闻数据进行综合处理和分析。数据财经新闻数据是金融市场分析和决策的重要基础，提供了市场动态、宏观经济指标、公司业绩等多方面的关键信息。各大财经网站每日均会产生大量的新闻文本数据，为了进一步聚合分析这些数据，需要对新闻文本做一系列处理。RAGRAG的主要优势在于其能够提高答案的准确性和相关性。通过引用外部知识库中的信息，RAG可以提供更准确的回答，增加用户信任。此外，RAG便于知识更...

一、简介

财经新闻数据构成了金融市场分析和决策的坚实基础，它涵盖了市场动态、宏观经济指标、公司业绩等多维度的关键信息，成为主动投资管理中不可或缺的决策参考。在量化投资的实践中，传统的结构化数据分析方法虽然广泛应用，但面对新闻数据中的非结构化信息，传统算法如情感分析和关联分析等往往只能捕捉到信息的一部分，无法全面挖掘和利用新闻数据的全部价值。随着大型语言模型技术的兴起，其在金融领域的应用潜力逐渐被挖掘和实现。这些模型以其卓越的文本分析和理解能力，为非结构化信息的处理提供了新的解决方案。本文中，我们探索了将新闻数据与大型语言模型相结合的可能性，构建了一个本地化的 RAG（Retrieval-Augmented Generation）系统。该系统依托于大型语言模型的深度分析能力，对新闻数据进行综合处理和分析。

进一步地，我们利用大型语言模型预测的信号，构建了行业轮动和市场择时策略。实证结果显示，结合大型语言模型的分析能力所制定的策略，取得了显著优于基准的表现。这一成果不仅突显了大型语言模型在金融决策中的潜在价值，也为量化投资领域提供了新的研究路径和实践方法。本地化 RAG（Retrieval-Augmented Generation）系统的实施，为执行多样化的下游任务提供了强有力的支持。其中，预测信号的生成仅仅是其众多功能中的一项。传统的、需要大量人力资源并繁琐复杂的任务，现在可以高效地交由大型语言模型来处理。随着技术的进步和模型能力的提升，大型语言模型的应用预计将广泛渗透至各个行业领域，成为推动行业发展、提高工作效率和创新决策过程的关键力量。在未来，我们可以预见大型语言模型将在各行各业发挥更加深入和广泛的作用，引领行业变革，开创智能化工作的新篇章。

二、数据

财经新闻数据是金融市场分析和决策的重要基础，提供了市场动态、宏观经济指标、公司业绩等多方面的关键信息。各大财经网站每日均会产生大量的新闻文本数据，为了进一步聚合分析这些数据，需要对新闻文本做一系列处理。

2.1 数据简介

本研究利用聚源数据汇总的各大财经媒体发布的新闻数据。为确保分析数据的新颖性，避免其已被广泛应用于大型模型训练，本研究选取了 2023 年及以后，主流财经网站发布的新闻文本数据进行分析。数据集总计包含超过 50 万条新闻样本，日均新闻样本数量的中位数达到 1061 条。就单条新闻的字段长度而言，中位数为 519 字，平均值为 826 字；最长的新闻报道包含超过 10 万字，而最短的仅含 11 字。此数据集的广度与深度，为本研究提供了一个丰富的信息源，以支撑后续的分析与探讨。

2.2 数据清洗

在汇总的新闻数据库中，不同的财经媒体偶尔会发布相同的新闻信息，为避免后续查询到相同的内容，首先需要对文本进行去重处理。本文采用 SimHash 算法对文本进行去重。 SimHash 是 google 于 2007 年发布的一篇论文《Detecting Near-duplicates for web crawling》中提出的算法，被应用在 Google 搜索引擎网页去重的工作之中。该算法的核心思想是将高维的特征向量映射到一个低维的二进制签名中，通过比较两个文本的二进制签名来确定它们的相似性。

算法的具体流程为： 1.分词与特征提取：首先对文本进行分词，提取关键词作为特征向量。 2.特征加权：对提取出的关键词进行加权处理，常用的权重计算方法包括词频（TF）和逆文档频率（IDF）。 3.哈希降维：使用哈希函数将每个特征转换为二进制的哈希值，通常为固定位数，如 64 位。 4.加权向量合并：将所有特征的加权哈希值合并成一个向量，并进行加权求和。 5.降维得到签名：对合并后的向量进行降维处理，根据每个维度的和是否大于 0 来确定最终的二进制签名，大于 0 则为 1，否则为 0。 6.相似度判断：通过比较两个文本的 SimHash 签名的海明距离（即不同位数的个数）来判断它们的相似度。海明距离越小，文本越相似。

其他的清洗步骤包括：去除特殊符号，剔除太长或者太短的新闻文本，剔除非专业新闻媒体信息等。最终得到了 44 万条不重复的新闻文本数据，总文本长度约为 4.3 亿字段。

三、RAG

虽然目前大模型对于长上下文的推理效率不断提高，但是依然难以一次性处理上述上亿长度的文本数据，如果采用重新预训练大模型或者微调模型的方式，训练成本会急剧增加。

在综合效率和成本考量之后，本文采用 RAG 框架分析新闻文本数据。检索增强生成（Retrieval-Augmented Generation，简称 RAG）是一种结合了信息检索和文本生成的技术，旨在提升大型语言模型（Large Language Models，简称 LLMs）的性能和输出的准确性。RAG 通过从外部知识库检索相关信息，辅助 LLMs 生成更准确、更丰富的回答，同时减少模型幻觉的问题。 RAG 的核心在于两个组件：信息检索（Retrieve）和文本生成（Generate）。在接收到用户的查询后，RAG 首先使用检索组件在大型的知识库或文档集合中搜索与问题相关的信息。这一过程类似于人在图书馆中查找相关书籍以回答某个问题。检索到的信息随后被用作文本生成组件的输入，该组件负责根据检索到的信息生成一个连贯、准确的回答。

RAG 的主要优势在于其能够提高答案的准确性和相关性。通过引用外部知识库中的信息，RAG 可以提供更准确的回答，增加用户信任。此外，RAG 便于知识更新和引入特定领域知识，有效解决了知识更新的问题。 RAG 还可以根据特定领域进行定制，为特定领域提供知识支持。在检索增强生成（Retrieval-Augmented Generation, RAG）框架的领域内，LangChain 和 LlamaIndex 是两个广受推崇的技术解决方案，它们均旨在为大型语言模型（Large Language Models, LLMs）的应用开发提供支持。这两个框架均装备了一系列高级组件和工具，用以增强开发者构建复杂应用的能力。在本研究中，我们将重点探讨利用 LangChain 框架中的组件来开发一个本地化的 RAG 系统。该系统旨在结合 LangChain 的灵活性和高效性，以实现对 LLMs 的优化利用，并提升其在财经新闻分析场景中的性能。通过精心选择和集成 LangChain 所提供的功能模块，我们期望该本地化 RAG 系统能够更好地适应特定的数据处理需求，同时保持与现有技术的兼容性和扩展性。

3.1 信息检索-向量数据库

为了便于后续检索，首先需要将新闻文本数据存储于向量数据库。向量数据库专门设计用于存储和处理向量数据，这些向量通常是由文本、图像、音频和视频等非结构化数据通过机器学习模型、词嵌入或特征提取技术转换而来。与传统数据库不同，向量数据库的核心优势在于其能够高效地进行高维向量相似性检索，非常适用于机器学习和人工智能应用中，如图片识别、自然语言处理、推荐系统等。在传统的字符串匹配方法中，检索过程依赖于对文本内容的精确匹配，这在处理大量数据时往往会遇到性能瓶颈，并且难以准确捕捉文本的语义信息。然而，向量空间模型通过将文本转换为数值向量，不仅能够有效地降低计算复杂度，提高检索效率，而且还能够通过计算向量之间的相似度来实现基于语义的检索。

向量数据库的主要特点包括高度可扩展性、高效的相似性搜索能力和对高维数据的支持。它们使用称为“近似最近邻”(Approximate Nearest Neighbor, ANN)搜索的搜索技术，这包括哈希和基于图的搜索等方法，以实现快速准确的相似性检索。目前市面上存在多种向量数据库产品和开源项目，例如 Chroma、Pinecone、Weaviate、Faiss 和 Qdrant 等，它们各自提供了不同的功能和特性，以满足不同应用场景的需求。随着人工智能和机器学习技术的不断进步，向量数据库在数据检索、处理和分析方面的作用将变得越来越重要，它们有望在各个领域提供更复杂、更高效、更个性化的解决方案。本文采用 Milvus 数据库，Milvus 是一款开源的向量数据库，专为海量特征向量的相似性搜索而设计。它基于异构众核计算框架，能够在有限的计算资源下实现高效能和低成本的搜索，支持十亿级别的向量搜索仅需毫秒级响应。

3.1.1 文本切分

首先加载原始数据，Langchain 提供了一系列数据加载工具，包括 WEB、PDF、JSON、CSV 等各种结构和非结构化数据。我们将清洗之后的新闻文本数据加载。加载完成后需要对文本进行切分，切分的主要目的是为了提高检索效率，增强检索的准确性，为后续大模型提供输入，提高大模型对于信息的理解。常用的文本切分方式包括句子切分、词语切分、短语切分、基于规则切分、基于模型切分等。Langchain 的 TextSplitter 中提供了许多函数用于切分数据，本文采用默认的 RecursiveCharacterTextSplitter 对新闻数据进行切分。RecursiveCharacterTextSplitter（递归字符文本分割器），会通过不同的符号递归地分割文档，同时兼顾文本的长度以及重叠部分的长度。默认使用“\n\n” ,"\n" ," ",""这四个特殊字符进行切分。我们将子文本长度设为 500，最终原始 4.3 亿字段的文本切分为了 94 万个子文本。切分后的子文本具体样例如下所示，可以看出，经过切分之后的子文本依然保持了较好的结构以及完整的信息。

3.1.2 文本嵌入

文本嵌入（Embedding）是指将文本映射为嵌入向量的过程。通过嵌入向量，能够完成多种自然语言任务，包括语义相似度，文本聚类，文本分类，信息检索，问答系统，自然语言理解，翻译等。文本嵌入模型一般采用预训练模型，也可根据实际任务进行微调。常用的中文预训练 embedding 模型有 OpenAI 的 text-embedding-ada-002，MOKA 的 m3e，阿里的 gte，智源的 bge 等，各模型的表现可参考 Huggingface 的 MTEB Chinese leaderboard。本文采用目前中文模型中表现最好 acge_text_embedding 模型，模型来自于合合信息技术团队，模型输出维度为 1792 维。

3.1.2 向量数据库

将 94 万个子文本进行 Embedding,最终得到 94 万个 1792 维的向量。为了便于向量检索以及更新维护，我们将这些向量存入向量数据库 Milvus，同时建立索引。

在进行文本数据分析的过程中，内积计算作为一种有效的数学工具，能够用于量化文本向量之间的相似性，从而实现相关新闻文本数据的精确提取。以内积为基础的相似度评估方法，通过计算两个向量的点积并将其与各自模长的乘积进行比较。以 2024 年 3 月 29 日关于贵州茅台的新闻报道为例，在预先构建的向量数据库中高效地检索出与该主题相关的新闻数据。

3.2 文本生成

通过将用户的查询问题与检索得到的相关信息进行有效整合构建出提示词（prompt），我们可以为大型语言模型提供明确且有针对性的输入。这种方法引导模型进行更为深入的分析、全面总结以及逻辑推理，从而显著降低了模型产生错误或偏差（即“幻视”）的可能性，并有效提升了模型在处理复杂问题时的表现和准确性。

3.2.1 大模型部署

相较于商业性质的人工智能模型，开源大型语言模型展现出了更高的灵活性和可定制性。在遵守相应的许可协议的前提下，开发者和研究者可以对开源模型进行深入的再加工和优化，以适应特定的应用场景和需求。这种灵活性使得开源大模型能够被有效地整合进各种下游任务中，例如自然语言处理、机器翻译、情感分析等。通过对模型结构、训练数据集或优化算法的调整，开发者可以根据具体任务的特点和挑战，提升模型的性能和准确度。随着模型参数的增加，以及新技术的提出，大模型的表现不断提高，在 Huggingface 的 leaderboard 中，大模型的表现不断逼近甚至超越人类水平。

为了促进大语言模型（LLM）的本地化部署，本研究选用了 ollama 框架作为技术支撑。ollama 框架是一个支持跨平台的开源解决方案，专门设计用于通过 Docker 容器技术进行 LLMs 的部署与维护，从而显著降低了部署大型语言模型的技术门槛。该框架内置了一系列广泛使用的 LLM 模型，如 Llama2、Gemma、Mistral、Mixtral、Qwen 及 Yi 等，此外， ollama 还支持通过 Modelfile 文件来管理和执行本地下载的 LLM 模型，为用户提供了更高的灵活性和自主性。其中 Mixtral 模型是由 Mistral AI 公司开发的一种先进的人工智能模型，该模型的设计旨在提高处理效率和准确度，同时降低计算成本。Mixtral-8x7B 是基于 Mistral 7B 的 MoE（Mixture of Experts）模型，它通过引入 MoE 结构来进一步提升性能。MoE 结构的核心思想是将一个大型网络分解为多个专家（Experts），每个专家负责处理特定类型的任务或数据。在实际应用中，根据输入数据的特性，通过一个门控机制（Gate）来选择性激活相应的专家进行计算，这样可以提高模型的专注度和效率。结合各种前端框架，ollama 框架使得调用和集成各类大型语言模型变得异常简便。通过这种方式，用户可以轻松构建出功能强大的自然语言处理应用。

open-webui 结合 ollama 也可以实现简单的 RAG 功能，用户可以通过前台或者后台上传相关文档，交给 LLM 模型进行分析。同时，本地化部署大模型后可以支持 API 调用，兼容 OpenAI 的函数接口，可以将 API 和插件和软件相结合，提供更加丰富的使用场景。

3.2.2 文本生成

在部署大型语言模型（LLM）之后，系统将能够依据用户提出的问题，并结合向量数据库中存储的相关信息，生成精准的提示词。随后，这些提示词将被用于引导 LLM 生成相应的答案。为了确保模型管理的高效性和便捷性，我们使用 Langchain 提供的 LLMs 接口。Langchain 的接口不仅支持对本地模型的便捷管理，而且通过其强大的接口功能，我们同样能够轻松地调用包括 GPT、Moonshot 等在内的商业大模型。这种灵活性极大地丰富了我们对不同模型资源的访问能力，同时也为后续的模型集成和应用开发提供了坚实的基础。以科技行业 2024 年 3 月 29 日新闻为例，要求 LLM 将查询得到的相关新闻进行总结，得到以下结果： 1.科技金融是未来金融发展的重要方向，建设银行在深圳成立了科技金融创新中心，将加快推进科技金融业务的创新和发展。

2.5G-A 是 5G 向 6G 发展的关键阶段，具备更高速率、更大连接、更低时延等特点。运营商作为 5G-A 策源地将协同产业链，不断引领关键技术导入并打造标杆应用，5G-A 商用化落地或增厚新兴业务收入。无线主设备、天线、射频等设备厂商也将迎来新成长空间。 3.随着 AI 在各领域的应用延伸，手机、服务器、PC 中 DRAM 和 NAND 单机平均搭载容量均有成长，三星、SK 海力士及美光全面调升上半年稼动率。受益于价格的持续回暖，以及 HBM 和 DDR5 等高端产品的需求增长，存储芯片板块上下游公司有望充分受益。 4.科东软件与英特尔在工业 AI 机器人领域展示了双方的合作成果，这也是对未来工业生产智能化的一次大胆预见。随着汽车走向端到端智能驾驶，行业最终向 AI 定义汽车的方向演进，单车也更接近一个通用 AgentAI，随着未来世界模型的接入将成为通用机器人落地的首个场景。可以看出，文本中虽然不一定包含有科技相关的文本，但是通过语义检索以及分析，LLM 依然成功的总结出了当日科技相关的新闻。

四、RAG 用于市场分析

传统投资领域的专业人士每日肩负着分析庞杂新闻资讯的重任，旨在从中甄别出对市场趋势具有重大影响力的信息。这一过程不仅要求投资者具备深厚的专业知识和丰富的实践经验，还需要投入大量的时间和精力进行细致的研读与分析。通过利用大型语言模型（LLM）的先进数据分析和推理能力，结合本地化的检索增强生成（RAG）系统，我们能够高效地执行这一任务。投资者可以根据个性化需求，指导 LLM 对新闻资讯进行深度分析，并生成相应的分析结果。在本研究中，我们运用 LLM 对市场趋势进行预测，并制定相应的市场择时和行业轮动策略。为确保所分析的信息的新颖性，避免使用已用于模型训练的数据，本研究选取了 2023 年之后的新闻数据进行周频市场预测。在使用 LLM 进行预测时，我们构建了一个模拟资深分析师的代理（Agent），该代理专门负责分析新闻数据和市场状况，并预测市场的未来走势，同时按照既定格式输出分析结果。为减少模型输出的不确定性，我们将温度参数（temperature）设为 0，同时设置 top_k 为 1，确保每次预测的唯一性。

4.1 LLM 市场择时

在进行市场未来趋势预测的过程中，我们向代理模型提供了包含过去一周内市场关键新闻资讯及历史表现数据的详尽信息集，以便模型能够基于这些信息生成对未来一周市场走势的预测分析。在对不同模型的预测能力进行评估时，我们选择了包括 qwen:14b、Mixtral 8x7B、GPT-3.5-Turbo 以及 GPT4-Turbo-Preview 在内的多种模型进行测试。然而，在实际应用中，Gemma、Llama2 等其他模型未能按照预定要求输出有效结果，导致无法进行有效的比较分析。

4.2 LLM 行业轮动

同样，我们也可以结合新闻数据以及市场状态，要求 LLM 输出推荐行业。具体步骤为：首先在数据库检索过去一周重要的市场新闻。其次将新闻信息和过去一周市场表现结合在一起，要求 LLM 根据这些信息预测未来一周表现最好的五个行业，根据预测信号构建等权组合，周频进行调仓，采用 mixtral 8*7b 模型，基准为 30 个行业等权组合。

五、总结

本研究通过融合新闻数据与先进的大型语言模型，成功构建了一个本地化的 RAG（Retrieval-Augmented Generation）系统。该系统充分利用了大型语言模型在文本总结、分析和推理方面的强大能力，并结合市场新闻和状态信息，以实现对一系列复杂下游任务的有效处理。在本研究中，我们依据大型语言模型生成的预测信号，进一步设计并实施了三种策略：市场择时策略、行业轮动策略以及综合行业轮动与市场择时的复合策略。通过对这些策略的实证分析，我们发现 RAG 系统在实际应用中展现出了卓越的性能。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）