机器学习应用系列：强化学习驱动下的解耦时序对比选股模型.pdf

上传者：m****
时间：2025/12/26
热度：61
0人点赞
举报

机器学习应用系列：强化学习驱动下的解耦时序对比选股模型。本报告提出了一种基于强化学习的解耦时序对比模型（DTLC_RL），该模型通过特征空间解耦、对比学习表征增强以及正交约束保障独立性以及强化学习动态融合，构建了一个兼具深度学习非线性预测能力与良好可解释性的选股框架。在模型设计中，我们分别构建了面向市场系统风险（β空间）、个股特异特征（α空间）和个股基本面信息（θ空间）的编码器，并通过对比学习与正交约束提升各空间表征的区分度与互补性。在此基础上，引入强化学习近端策略优化（PPO）算法以实现自适应调整各空间权重。

空间编码器构建：本文以时间卷积网络 TCN作为 beta空间特征的编码器，以多尺度 Transformer 模型作为 Alpha空间编码器，以门控残差 MLP 作为 Theta 空间编码器。对各个空间分别进行收益预测训练，各空间编码器均能有效提取目标信息，且生成因子具备一定选股能力。自 2019年 1月至 2025年 11月， Beta_TCN、Alpha_Transformer、Theta_ResMLP 因子 IC 分别为 0.0954、 0.1128、0.0485，多头组合前 10%年化收益率分别为 27.73%、32.66%以及 23.88%。除此之外，各空间训练得到的因子彼此间相关性较低且具备一定互补性，为后续多空间融合奠定一定基础。

融合模型对照组实验：本文分别测试了两类空间融合对照组实验：1）直接对三个空间训练出的因子进行等权求和；2）将三个空间的编码信息进行合并，并通过单层线性层进行处理并接入预测头进行收益率预测。自 2019年 1月至 2025 年 11 月，DTLC 等权融合模型因子月平均 IC 为 0.1202，多头组合（前 10%）年化收益率 32.46%；线性融合 DTLC 模型因子月平均 IC 为 0.1239，多头组合年化收益率 32.95%。

强化学习驱动空间融合：本文引入强化学习来实现空间的动态复权融合，即在 DTLC 模型的三个编码器后引入强化学习动态复权的空间融合机制。该部分将三个子空间编码与市场环境特征共同输入策略网络，通过近端策略优化（PPO）算法动态生成空间权重，实现自适应加权融合，最终通过预测头输出未来收益率预测。自 2019年 1月至 2025年 11月，DTLC_RL 因子月平均 IC为 0.1250，多头组合年化收益率 34.77%，显著优于 DTLC_Linear 多头表现。可见强化学习空间融合机制的加入使得因子性能有所提升。

指数增强测试：自 2019 年 1月至 2025 年 11月，DTLC_RL 因子沪深 300指数增强相对指数年化超额收益率 13.72%，近一个月、三个月、一年、三年超额收益率分别为-0.87%、1.53%、14.99%以及 12.58%；DTLC_RL 因子中证 1000 指数增强相对指数年化超额收益率 20.37%，近一个月、三个月、一年、三年超额收益率分别为 3.00%、4.52%、19.67%以及 13.76%。