金工深度研究:大模型+强化学习因子挖掘.pdf

  • 上传者:0******
  • 时间:2025/12/05
  • 热度:297
  • 0人点赞
  • 举报

金工深度研究:大模型+强化学习因子挖掘。

人工智能 97:大模型+强化学习挖掘量价因子

本文基于大模型+强化学习技术,探索二者结合在因子挖掘场景下的应用潜 力。通过对因子表达式的 Token 化建模,强化学习可在指定环境中以 Token 单元组成动作序列,形成完整的 Alpha 因子表达式;大模型则可借助其金融 领域知识为强化学习去芜存菁,注入活水,有效提升强化学习因子挖掘的效 果及稳定性。基于该框架产出因子构建沪深 300 指增策略,回测区间 (20201231-20251128)策略年化超额 17.85%,信息比率 1.50;中证 500 指增策略年化超额收益率 9.78%,信息比率 0.67。

强化学习应用于因子挖掘:Token 化序列建模与序列决策

Token 化是强化学习因子挖掘框架的根基。其目标是将任何数学表达式映射 为一个可学习、可生成的离散序列,使强化学习模型能在离散空间中高效操 作。完成 Token 化之后,因子挖掘问题便可以转化为一个序列决策问题, 即每一步从有限 Token 集中选取一个符号,将其加入表达式序列中,直到 构造完成一个可执行的因子表达式。强化学习正是解决这类问题的标准方 法。其核心思想在于,让模型在“试错”中学习如何生成更优质的表达式, 通过奖励机制不断向高质量因子空间逼近。

强化学习的因子挖掘短板与大模型的知识注入

在实际进行强化学习因子挖掘时,我们会发现强化学习模型产出的相当一部 分因子存在构造简单、不合逻辑、符号多余等问题,原因在于强化学习模型 并不具备语义理解能力,难以构造符合逻辑、具备一定经济学含义的因子, 而这恰恰是大模型的优势所在。因此在本文框架中,我们尝试融入大模型的 领域知识,一方面是构造基础池,即为强化学习模型提供一个“热身”过程, 可能更容易挖掘出效果更进一步的因子;另一方面是定期注入新因子,剔除 劣质因子,避免强化学习模型陷入局部最优。

大模型+强化学习因子挖掘全流程

在因子挖掘流程中,由基于 MaskablePPO 算法的强化学习模型持续不断生 成 Token,以实现因子的不断挖掘。模型交互的环境可称之为 AlphaPool, 对应特定股票池的 Alpha 因子池。对于模型生成的任意因子,由 AlphaPool 完成评估,例如 IC 计算、是否为之前的失败缓存因子、能否入池等等,基 于评估结果确定反馈给强化学习模型的奖励水平。在此之外,开始挖掘前, 大模型可生成一定数量因子作为初始因子池,强化学习后续迭代过程中,大 模型亦会定期注入新因子以替换劣质因子。

强化学习因子挖掘效果较优,大模型增益效果明显

基于强化学习挖掘出的因子组合在沪深 300 指增策略表现优异,回测区间 内年化超额收益率可达 16.41%;在中证 500 指增策略中表现同样较好,回 测区间内年化超额收益率达 7.17%。大模型提供初始因子池,同时定期更新 因子池后,回测区间内,对于沪深 300 指增组合,策略年化超额出现明显 提升,由 16.41%提升至 17.85%,信息比率从 1.28 提升至 1.50;中证 500 指增策略表现类似,年化超额收益率提升由 7.17%提升至 9.78%,信息比 率从 0.48 提升至 0.67。

1页 / 共34
金工深度研究:大模型+强化学习因子挖掘.pdf第1页 金工深度研究:大模型+强化学习因子挖掘.pdf第2页 金工深度研究:大模型+强化学习因子挖掘.pdf第3页 金工深度研究:大模型+强化学习因子挖掘.pdf第4页 金工深度研究:大模型+强化学习因子挖掘.pdf第5页 金工深度研究:大模型+强化学习因子挖掘.pdf第6页 金工深度研究:大模型+强化学习因子挖掘.pdf第7页 金工深度研究:大模型+强化学习因子挖掘.pdf第8页 金工深度研究:大模型+强化学习因子挖掘.pdf第9页 金工深度研究:大模型+强化学习因子挖掘.pdf第10页 金工深度研究:大模型+强化学习因子挖掘.pdf第11页 金工深度研究:大模型+强化学习因子挖掘.pdf第12页
  • 格式:pdf
  • 大小:3M
  • 页数:34
  • 价格: 5积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
分享至