金融工程深度研究：LLM-FADT，大模型增强文本选股.pdf

上传者：v*****
时间：2025/06/11
热度：151
0人点赞
举报

金融工程深度研究：LLM-FADT，大模型增强文本选股。

人工智能 92：大模型增强下的文本选股策略 LLM-FADT

本文在前期报告《人工智能 63：再探文本 FADT 选股》（20221028）的基础上，基于开源大模型 Qwen3-8b 增强 BERT-FADT 策略，构建效果更为稳定的 LLM-FADT 策略。对于多头等权组合和因子增强 Top25 组合，LLM 增强后的策略效果显著优于增强前。与此同时，基于 LLM-FADT 策略，本文对基于少量成分内股票的沪深 300 指增组合以及医药行业增强组合进行探索，构建的 LLM-FADT Top25 沪深 300 指增组合年化超额收益率为 12.16%，LLM-FADT 医药行业增强组合年化超额收益率为 18.53%（回测区间均为 20170126-20250530）。

大模型的文本“博观”视角：大模型对原始文本推理演绎形成增量信息

传统的文本分析往往仅基于原始文本及其固有特征，例如文本可读性、文本复杂度、文本情绪、文本相似性等。而人类作为文本信息的常规受众，对文本分析的基础行为之一是进行个性化的推理演绎，以获取文本中隐含的重要信息，然而这一基本行为却难以被机器模拟。大语言模型或是难得的解决之道，本文利用 Qwen3-8b 模型对原始分析师文本进行多角度重构，包括标题新解、行情催化剂、“言外之意”、潜在风险、收益指引，以模拟人类阅读文本时的推理演绎过程，构建额外的增量信息。

大模型文本因子：LLM 重构原始文本或将带来额外增量信息

本文对大模型文本因子进行逐一对比测试。在因子分层回测方面，分 10 层测试的情况下，行情催化剂文本分层 1 绝对收益与超额收益均领先于其余文本，“言外之意”文本分层 10 则均低于其余文本。在组合回测方面，对各文本因子分层 1 构建等权组合，行情催化剂文本自 2023 年起持续跑赢其他文本，潜在风险文本则稳定逊色于其他文本。与此同时，行情催化剂与潜在风险文本与原始文本相关性总体较低，二者相比于原始文本可能具备独特的增量信息。

LLM-FADT 组合：多项业绩指标均表现出色，LLM 增强后>LLM 增强前

本文尝试对不同大模型文本因子进行合成，包括“先合成后训练”与“先训练后合成”两种方案，也即先对文本特征向量取均值还是对训练得到的因子取均值之分。测试结果显示“先训练后合成”方案更优。据此可构建 LLM-FADT 因子增强 Top25 组合，该组合相对于中证 500 基准，年化超额收益率为 27.60%，信息比率为 2.21，相对基准月胜率为 74.26%。基于“先训练后合成”方案，无论是多头等权组合（因子分 10 层首层等权）还是因子增强组合（多头等权+额外因子增强），LLM 增强后的组合业绩显著优于增强前。

应用案例：沪深 300 少成分股增强组合与医药行业增强组合

对于投资管理人而言，基于少量成分内股票构建指数组合、构建特定行业增强组合皆为常见需求。本文通过修改模型训练标签，定制化构建 LLM-FADT Top25 沪深 300 增强组合和 LLM-FADT 医药行业增强组合，前者年化收益率为 13.65%，年化超额收益率为 12.16%，相对基准月胜率为 59%，后者年化超额收益率为 18.53%，年化跟踪误差为 12.22%，相对基准月胜率为 69.00%，年化双边换手率为 3.34。