2025年机器学习应用系列：强化学习驱动下的解耦时序对比选股模型

来源：西南证券
发布时间：2026/01/08
浏览次数：54
举报

相关深度报告REPORTS

机器学习应用系列：强化学习驱动下的解耦时序对比选股模型.pdf

机器学习应用系列：强化学习驱动下的解耦时序对比选股模型。本报告提出了一种基于强化学习的解耦时序对比模型（DTLC_RL），该模型通过特征空间解耦、对比学习表征增强以及正交约束保障独立性以及强化学习动态融合，构建了一个兼具深度学习非线性预测能力与良好可解释性的选股框架。在模型设计中，我们分别构建了面向市场系统风险（β空间）、个股特异特征（α空间）和个股基本面信息（θ空间）的编码器，并通过对比学习与正交约束提升各空间表征的区分度与互补性。在此基础上，引入强化学习近端策略优化（PPO）算法以实现自适应调整各空间权重。空间编码器构建：本文以时间卷积网络TCN作为bet...

深度学习模型简介

在当前背景下，深度学习与机器学习技术在量化选股领域的主流做法主要沿着两条路径演进：一是对传统多因子模型进行非线性拓展，通过神经网络学习因子间的复杂交互关系，旨在构建对区别于传统多因子的非线性融合模型；二是构建端到端的深度时序模型，直接从量价序列中提取预测信号，端到端的预测未来一定时间长度的收益率，初始的量价时序信息中并不一定需要具备一定的选股能力。这些方法在一定程度上提升了模型的预测能力，但也具备一定的局限性：一方面，多数模型难以清晰分离市场系统性风险、行业联动、个股特质与财务安全等不同来源的收益贡献，导致模型在风格切换时表现不稳定；另一方面，特征表征与因子融合往往采用静态或简单动态权重，缺乏对市场状态的自适应能力，在极端行情下容易失效。

为了改善甚至解决上述深度学习机器学习选股中遇到的问题，本文提出一类对个股特征进行解耦分解，并进行动态加权求和的模型，即解耦时序对比学习强化学习模型（Decoupled Temporal Contrastive Learning with Reinforcement Learning, DTLC_RL），模型的核心设计包含以下几个层面，旨在保持深度学习强大非线性拟合能力的同时，构建一个具备一定可解释性且具备一定环境适应性的选股模型：第一部分，多层次因子解耦与表征学习：DTLC_RL 模型构建了三个在数学上正交的潜在表征空间，分别专注于捕捉市场系统风险（β 空间）、个股特异信号（α 空间）、与个股基本面信息（θ 空间）。每个空间均配备经过专门设计的深度编码器（如 TCN、Transformer、门控残差 MLP），以确保从相应数据模态中提取出最有效的特征；第二部分，对比学习增强表征稳健性：为避免模型过拟合于数据噪声，并为后续融合奠定良好基础，我们在每个子空间内部引入对比学习机制。通过构建基于收益率相似性的正负样本对，该机制驱使编码器学习到的表征能够拉近同类样本、推远异类样本，从而显著提升特征在截面上的区分能力与模型在面对未知样本时的泛化鲁棒性。第三部分：正交约束保障因子独立性：DTLC_RL 模型设置正交化损失函数，强制要求三个子空间输出的表征向量在统计上接近相互独立。致力于缓解了不同特征空间之间的多重共线性问题，确保了 β、α、θ 所承载信息的纯粹性与互补性，极大增强了模型的经济含义可解释性，并为动态权重分配提供了清晰、互不干扰的决策基础。第四部分，强化学习驱动空间融合：区别于传统固定权重合成或嵌入可学习线性层学习融合权重的方式，本文主要构建深度强化学习（DRL）智能体作为“融合控制器”。该智能体以三个子空间表征及当前市场环境状态为输入，通过持续与投资环境交互学习，输出一套随时间与市场状态自适应变化的空间融合权重。

1.1 TCN 时间卷积网络模型

时间卷积网络（TCN）是一种基于卷积神经网络的时序模型。相较于传统的循环神经网络（RNN），TCN 采用了一种新颖的卷积结构，通过扩张因果卷积和残差连接来捕捉时序依赖关系。TCN 的卷积结构使得其具有并行计算的能力，从而在训练时更加高效。此外，TCN 通过调整扩张因子和卷积核大小，可以灵活地控制感受野的大小，从而适应不同时间尺度的股票价格波动模式。 TCN 的设计遵循两个基本原则：1）因果性：网络输出只依赖于当前及过去的输入，不依赖于未来；2）任意长度映射：网络能将任意长度的输入序列映射为相同长度的输出序列。

1.2 TransFormer 模型

Transformer 是一种基于自注意力机制（Self-Attention）的深度学习模型，最初被提出用于自然语言处理领域，但其在时序数据处理中同样展现出强大的能力。相较于 LSTM（Long Short-Term Memory）、GRU（Gated Recurrent Unit）等循环神经网络，Transformer 摒弃了递归结构，转而通过自注意力机制实现了全序列并行计算，这显著提升了训练速度。此外，尽管 LSTM 和 GRU 通过门控机制缓解了梯度消失问题，但在超长序列中，这两个模型仍可能丢失早期信息；而 Transformer 的自注意力机制则直接建模模型中任意位置间的关联，无需依赖递归路径，因此相较于 LSTM 与 GRU，更擅长捕捉跨周期的时序规律。

1.3 残差网络模型

门控残差网络（Gated Residual Network, GRN）是一类针对序列建模与高维特征交互任务的非线性特征变换模块，被广泛应用于深度时序模型（如 Temporal Fusion Transformer, TFT）。与传统的全连接前馈网络不同，GRN 在结构上引入了门控机制（gating mechanism）与残差连接（residual connection），从而能够根据输入数据的重要性自适应调节信息流动，使模型既保持足够的非线性表达能力，又能避免深层网络常见的梯度消失问题。整体而言，GRN 可以视为一个“可控的前馈网络”，网络内部通过门控结构决定多少输入信息保留、多少经过非线性变换后注入输出，能够有效处理金融时间序列中存在的特征异质性、噪声扰动及影响强度随时间变化的问题。

1.4 对比学习

对比学习是一种基于自监督学习的表示学习方法。相较于传统的监督学习范式，对比学习通过构建正负样本对和设计对比损失函数，可以在无需人工标注的情况下学习到数据的内在结构和语义表示，从而捕捉样本间深层次的相似性与差异性关系。此外，数据增强策略的灵活应用及特征空间的对比优化使得对比学习模型能处理海量无标注数据，从而更好适应股票市场中高维度、低信噪比的数据特性，并挖掘出不同股票、不同市场周期间的隐藏关联模式。

1.5 强化学习近端策略优化（PPO）

近端策略优化（PPO）是一种基于策略梯度的深度强化学习算法。相较于传统的策略梯度方法，PPO 引入了裁剪目标函数和重要性采样机制，可以在学习过程中稳定地更新策略，从而有效避免策略更新步长过大导致的性能崩溃。此外，广义优势估计（GAE）的设计及多轮次小批量更新方式使得 PPO 算法能处理高维状态动作空间和稀疏奖励问题，从而更好适应股票交易中非平稳的市场环境，并实现稳健的交易策略优化。

空间编码器构建

本节主要介绍三个不同空间的特征选取以及空间构造方式，并为后文引入强化学习算法融合三个空间铺垫。在空间融合之前，本文的所有空间均会单独训练以测算不同空间在当前特征及模型设置的条件下是否可以挖掘出与金融原理类似的信息。若无其他说明，本文所有模型（监督学习，非强化学习）训练方式等其他模型设定如下： 1）训练数据及数据处理：所有个股过去 10 年内的时序特征，做 5 天采样，预测标签为未来一个月(20 个交易日)的累计收益； 2）训练集验证集比例：80%：20%； 3）时序尺度选择：时序特征长度 60 天，基本面特征仅包含截面特征；4）数据处理：时序特征需时序标准化（与最后一个时间步比值）、截面标准化（均值标准差），基本面特征仅作截面去极值及 zscore 标准化； 5）模型训练及调仓频次：一年更新，月频调仓； 6）模型超参数：batch=截面个股数，lr=1e-4，损失函数 1-IC。

2.1 市场维度特征提取：Beta 空间

本节主要构造 beta 空间，该控件的构造围绕捕捉市场系统性风险展开，其中系统性风险是指那些影响所有股票的共性风险因素，如宏观经济波动、政策变动、市场情绪等。构造过程分为特征设计和模型构建两步，旨在量化个股对这些风险的不同敏感度。因此本文选取以下 5 个与市场相关的股票特征用以刻画个股与市场的关联程度。本节主要采用时间卷积网络 TCN 作为 beta 空间特征的编码器。输入是上述六个特征构成的 60 个交易日时序数据，经过线性投影层映射到统一维度。随后，两个 TCN 块依次处理时序信息：第一个 TCN 块使用膨胀率为 1 的因果卷积，捕捉短期市场趋势；第二个 TCN 块使用膨胀率为 2 的因果卷积，捕捉中期市场趋势。每个 TCN 块包含两层卷积，配备批归一化和激活函数，并通过残差连接保持梯度稳定。最后，通过全局平均池化压缩时间维度，输出一个 32 维向量作为 beta 空间编码，代表个股的系统性风险特征。整个模型在训练中作为 DTCL 框架的一部分，通过端到端学习优化参数，同时受正交约束确保与其他子空间解耦。

2.2 个股特异特征提取：alpha 空间

参考西南金工 2025 年 4 月发布的报告《PINN 信息约束与时序截面双流网络模型》中的时序模型，该节针对个股特异特征提取空间（alpha 空间）将主要采取上述报告中使用的多尺度 Transformer 模型，其中 alpha 空间特征为根据个股日频量价数据构建出 13 个量价时序特征用以多尺度 Transformer 模型编码。

在多尺度 Transformer 模型构建中，本文主要区分为三个尺度：20 日、40 日以及 60 日，分别表征短、中、长三个不同跨度的时序信息，并分别使用 transformer 层进行编码处理，随后对 transformer 层输出的信息以 60 日长度为基准进行线性时间序列上采样，并引入可学习参数的门控融合层对三个不同时间尺度的信息进行加权求和，最终引入全连接层输出收益率预测。根据 alpha 空间的定义，该空间致力于挖掘个股 alpha 信息，若在无其他空间配合的情况下单独使用该空间进行个股收益率预测任务，也可得到选股效果不错的因子（Alpha_Transformer）。自 2019 年 1 月至 2025 年 11 月，全 A 范围内 Alpha_Transformer 因子月均 IC（以 RankIC 表征）为 0.1137，多头组合（前 10%）年化收益率为 32.66%，月均单边换手率 0.83X。整体来看，alpha 空间单独具备不俗的收益预测能力，且因子表现具备一定的选股效果。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）