机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf

  • 上传者:m****
  • 时间:2025/12/26
  • 热度:61
  • 0人点赞
  • 举报

机器学习应用系列:强化学习驱动下的解耦时序对比选股模型。本报告提出了一种基于强化学习的解耦时序对比模型(DTLC_RL),该模型 通过特征空间解耦、对比学习表征增强以及正交约束保障独立性以及强化学习 动态融合,构建了一个兼具深度学习非线性预测能力与良好可解释性的选股框 架。在模型设计中,我们分别构建了面向市场系统风险(β空间)、个股特异 特征(α空间)和个股基本面信息(θ空间)的编码器,并通过对比学习与正 交约束提升各空间表征的区分度与互补性。在此基础上,引入强化学习近端策 略优化(PPO)算法以实现自适应调整各空间权重。

空间编码器构建:本文以时间卷积网络 TCN作为 beta空间特征的编码器,以 多尺度 Transformer 模型作为 Alpha空间编码器,以门控残差 MLP 作为 Theta 空间编码器。对各个空间分别进行收益预测训练,各空间编码器均能有效提取 目标信息,且生成因子具备一定选股能力。自 2019年 1月至 2025年 11月, Beta_TCN、Alpha_Transformer、Theta_ResMLP 因子 IC 分别为 0.0954、 0.1128、0.0485,多头组合前 10%年化收益率分别为 27.73%、32.66%以及 23.88%。除此之外,各空间训练得到的因子彼此间相关性较低且具备一定互 补性,为后续多空间融合奠定一定基础。

融合模型对照组实验:本文分别测试了两类空间融合对照组实验:1)直接对 三个空间训练出的因子进行等权求和;2)将三个空间的编码信息进行合并, 并通过单层线性层进行处理并接入预测头进行收益率预测。自 2019年 1月至 2025 年 11 月,DTLC 等权融合模型因子月平均 IC 为 0.1202,多头组合(前 10%)年化收益率 32.46%;线性融合 DTLC 模型因子月平均 IC 为 0.1239, 多头组合年化收益率 32.95%。

强化学习驱动空间融合:本文引入强化学习来实现空间的动态复权融合,即在 DTLC 模型的三个编码器后引入强化学习动态复权的空间融合机制。该部分将 三个子空间编码与市场环境特征共同输入策略网络,通过近端策略优化(PPO) 算法动态生成空间权重,实现自适应加权融合,最终通过预测头输出未来收益 率预测。自 2019年 1月至 2025年 11月,DTLC_RL 因子月平均 IC为 0.1250, 多头组合年化收益率 34.77%,显著优于 DTLC_Linear 多头表现。可见强化学 习空间融合机制的加入使得因子性能有所提升。

指数增强测试:自 2019 年 1月至 2025 年 11月,DTLC_RL 因子沪深 300指 数增强相对指数年化超额收益率 13.72%,近一个月、三个月、一年、三年超 额收益率分别为-0.87%、1.53%、14.99%以及 12.58%;DTLC_RL 因子中证 1000 指数增强相对指数年化超额收益率 20.37%,近一个月、三个月、一年、 三年超额收益率分别为 3.00%、4.52%、19.67%以及 13.76%。

1页 / 共35
机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第1页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第2页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第3页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第4页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第5页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第6页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第7页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第8页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第9页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第10页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第11页 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf第12页
  • 格式:pdf
  • 大小:4.2M
  • 页数:35
  • 价格: 5积分
下载 获取积分

免责声明:本文 / 资料由用户个人上传,平台仅提供信息存储服务,如有侵权请联系删除。

留下你的观点
  • 相关标签
  • 相关专题
热门下载
  • 全部热门
  • 本年热门
  • 本季热门
分享至