金工深度研究：大模型+强化学习因子挖掘.pdf

上传者：0******
时间：2025/12/05
热度：297
0人点赞
举报

金工深度研究：大模型+强化学习因子挖掘。

人工智能 97：大模型+强化学习挖掘量价因子

本文基于大模型+强化学习技术，探索二者结合在因子挖掘场景下的应用潜力。通过对因子表达式的 Token 化建模，强化学习可在指定环境中以 Token 单元组成动作序列，形成完整的 Alpha 因子表达式；大模型则可借助其金融领域知识为强化学习去芜存菁，注入活水，有效提升强化学习因子挖掘的效果及稳定性。基于该框架产出因子构建沪深 300 指增策略，回测区间（20201231-20251128）策略年化超额 17.85%，信息比率 1.50；中证 500 指增策略年化超额收益率 9.78%，信息比率 0.67。

强化学习应用于因子挖掘：Token 化序列建模与序列决策

Token 化是强化学习因子挖掘框架的根基。其目标是将任何数学表达式映射为一个可学习、可生成的离散序列，使强化学习模型能在离散空间中高效操作。完成 Token 化之后，因子挖掘问题便可以转化为一个序列决策问题，即每一步从有限 Token 集中选取一个符号，将其加入表达式序列中，直到构造完成一个可执行的因子表达式。强化学习正是解决这类问题的标准方法。其核心思想在于，让模型在“试错”中学习如何生成更优质的表达式，通过奖励机制不断向高质量因子空间逼近。

强化学习的因子挖掘短板与大模型的知识注入

在实际进行强化学习因子挖掘时，我们会发现强化学习模型产出的相当一部分因子存在构造简单、不合逻辑、符号多余等问题，原因在于强化学习模型并不具备语义理解能力，难以构造符合逻辑、具备一定经济学含义的因子，而这恰恰是大模型的优势所在。因此在本文框架中，我们尝试融入大模型的领域知识，一方面是构造基础池，即为强化学习模型提供一个“热身”过程，可能更容易挖掘出效果更进一步的因子；另一方面是定期注入新因子，剔除劣质因子，避免强化学习模型陷入局部最优。

大模型+强化学习因子挖掘全流程

在因子挖掘流程中，由基于 MaskablePPO 算法的强化学习模型持续不断生成 Token，以实现因子的不断挖掘。模型交互的环境可称之为 AlphaPool，对应特定股票池的 Alpha 因子池。对于模型生成的任意因子，由 AlphaPool 完成评估，例如 IC 计算、是否为之前的失败缓存因子、能否入池等等，基于评估结果确定反馈给强化学习模型的奖励水平。在此之外，开始挖掘前，大模型可生成一定数量因子作为初始因子池，强化学习后续迭代过程中，大模型亦会定期注入新因子以替换劣质因子。

强化学习因子挖掘效果较优，大模型增益效果明显

基于强化学习挖掘出的因子组合在沪深 300 指增策略表现优异，回测区间内年化超额收益率可达 16.41%；在中证 500 指增策略中表现同样较好，回测区间内年化超额收益率达 7.17%。大模型提供初始因子池，同时定期更新因子池后，回测区间内，对于沪深 300 指增组合，策略年化超额出现明显提升，由 16.41%提升至 17.85%，信息比率从 1.28 提升至 1.50；中证 500 指增策略表现类似，年化超额收益率提升由 7.17%提升至 9.78%，信息比率从 0.48 提升至 0.67。