2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 来源:西南证券
- 发布时间:2026/01/08
- 浏览次数:54
- 举报
机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf
机器学习应用系列:强化学习驱动下的解耦时序对比选股模型。本报告提出了一种基于强化学习的解耦时序对比模型(DTLC_RL),该模型通过特征空间解耦、对比学习表征增强以及正交约束保障独立性以及强化学习动态融合,构建了一个兼具深度学习非线性预测能力与良好可解释性的选股框架。在模型设计中,我们分别构建了面向市场系统风险(β空间)、个股特异特征(α空间)和个股基本面信息(θ空间)的编码器,并通过对比学习与正交约束提升各空间表征的区分度与互补性。在此基础上,引入强化学习近端策略优化(PPO)算法以实现自适应调整各空间权重。空间编码器构建:本文以时间卷积网络TCN作为bet...
深度学习模型简介
在当前背景下,深度学习与机器学习技术在量化选股领域的主流做法主要沿着两条路径 演进:一是对传统多因子模型进行非线性拓展,通过神经网络学习因子间的复杂交互关系, 旨在构建对区别于传统多因子的非线性融合模型;二是构建端到端的深度时序模型,直接从 量价序列中提取预测信号,端到端的预测未来一定时间长度的收益率,初始的量价时序信息 中并不一定需要具备一定的选股能力。这些方法在一定程度上提升了模型的预测能力,但也 具备一定的局限性:一方面,多数模型难以清晰分离市场系统性风险、行业联动、个股特质 与财务安全等不同来源的收益贡献,导致模型在风格切换时表现不稳定;另一方面,特征表 征与因子融合往往采用静态或简单动态权重,缺乏对市场状态的自适应能力,在极端行情下 容易失效。

为了改善甚至解决上述深度学习机器学习选股中遇到的问题,本文提出一类对个股特征 进行解耦分解,并进行动态加权求和的模型,即解耦时序对比学习强化学习模型(Decoupled Temporal Contrastive Learning with Reinforcement Learning, DTLC_RL),模型的核心设计 包含以下几个层面,旨在保持深度学习强大非线性拟合能力的同时,构建一个具备一定可解 释性且具备一定环境适应性的选股模型: 第一部分,多层次因子解耦与表征学习:DTLC_RL 模型构建了三个在数学上正交的潜 在表征空间,分别专注于捕捉市场系统风险(β 空间)、个股特异信号(α 空间)、与个股基 本面信息(θ 空间)。每个空间均配备经过专门设计的深度编码器(如 TCN、Transformer、 门控残差 MLP),以确保从相应数据模态中提取出最有效的特征;第二部分,对比学习增强表征稳健性:为避免模型过拟合于数据噪声,并为后续融合奠 定良好基础,我们在每个子空间内部引入对比学习机制。通过构建基于收益率相似性的正负 样本对,该机制驱使编码器学习到的表征能够拉近同类样本、推远异类样本,从而显著提升 特征在截面上的区分能力与模型在面对未知样本时的泛化鲁棒性。 第三部分:正交约束保障因子独立性:DTLC_RL 模型设置正交化损失函数,强制要求 三个子空间输出的表征向量在统计上接近相互独立。致力于缓解了不同特征空间之间的多重 共线性问题,确保了 β、α、θ 所承载信息的纯粹性与互补性,极大增强了模型的经济含义可 解释性,并为动态权重分配提供了清晰、互不干扰的决策基础。 第四部分,强化学习驱动空间融合:区别于传统固定权重合成或嵌入可学习线性层学习 融合权重的方式,本文主要构建深度强化学习(DRL)智能体作为“融合控制器”。该智能 体以三个子空间表征及当前市场环境状态为输入,通过持续与投资环境交互学习,输出一套 随时间与市场状态自适应变化的空间融合权重。
1.1 TCN 时间卷积网络模型
时间卷积网络(TCN)是一种基于卷积神经网络的时序模型。相较于传统的循环神经网 络(RNN),TCN 采用了一种新颖的卷积结构,通过扩张因果卷积和残差连接来捕捉时序依 赖关系。TCN 的卷积结构使得其具有并行计算的能力,从而在训练时更加高效。此外,TCN 通过调整扩张因子和卷积核大小,可以灵活地控制感受野的大小,从而适应不同时间尺度的 股票价格波动模式。 TCN 的设计遵循两个基本原则:1)因果性:网络输出只依赖于当前及过去的输入,不 依赖于未来;2)任意长度映射:网络能将任意长度的输入序列映射为相同长度的输出序列。
1.2 TransFormer 模型
Transformer 是一种基于自注意力机制(Self-Attention)的深度学习模型,最初被提出 用于自然语言处理领域,但其在时序数据处理中同样展现出强大的能力。相较于 LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)等循环神经网络,Transformer 摒弃 了递归结构,转而通过自注意力机制实现了全序列并行计算,这显著提升了训练速度。 此外,尽管 LSTM 和 GRU 通过门控机制缓解了梯度消失问题,但在超长序列中,这两 个模型仍可能丢失早期信息;而 Transformer 的自注意力机制则直接建模模型中任意位置间 的关联,无需依赖递归路径,因此相较于 LSTM 与 GRU,更擅长捕捉跨周期的时序规律。

1.3 残差网络模型
门控残差网络(Gated Residual Network, GRN)是一类针对序列建模与高维特征交互 任务的非线性特征变换模块,被广泛应用于深度时序模型(如 Temporal Fusion Transformer, TFT)。与传统的全连接前馈网络不同,GRN 在结构上引入了门控机制(gating mechanism) 与残差连接(residual connection),从而能够根据输入数据的重要性自适应调节信息流动, 使模型既保持足够的非线性表达能力,又能避免深层网络常见的梯度消失问题。 整体而言,GRN 可以视为一个“可控的前馈网络”,网络内部通过门控结构决定多少输 入信息保留、多少经过非线性变换后注入输出,能够有效处理金融时间序列中存在的特征异 质性、噪声扰动及影响强度随时间变化的问题。
1.4 对比学习
对比学习是一种基于自监督学习的表示学习方法。相较于传统的监督学习范式,对比学习 通过构建正负样本对和设计对比损失函数,可以在无需人工标注的情况下学习到数据的内在结 构和语义表示,从而捕捉样本间深层次的相似性与差异性关系。此外,数据增强策略的灵活应 用及特征空间的对比优化使得对比学习模型能处理海量无标注数据,从而更好适应股票市场中 高维度、低信噪比的数据特性,并挖掘出不同股票、不同市场周期间的隐藏关联模式。
1.5 强化学习近端策略优化(PPO)
近端策略优化(PPO)是一种基于策略梯度的深度强化学习算法。相较于传统的策略梯 度方法,PPO 引入了裁剪目标函数和重要性采样机制,可以在学习过程中稳定地更新策略, 从而有效避免策略更新步长过大导致的性能崩溃。此外,广义优势估计(GAE)的设计及多 轮次小批量更新方式使得 PPO 算法能处理高维状态动作空间和稀疏奖励问题,从而更好适 应股票交易中非平稳的市场环境,并实现稳健的交易策略优化。
空间编码器构建
本节主要介绍三个不同空间的特征选取以及空间构造方式,并为后文引入强化学习算法 融合三个空间铺垫。在空间融合之前,本文的所有空间均会单独训练以测算不同空间在当前 特征及模型设置的条件下是否可以挖掘出与金融原理类似的信息。若无其他说明,本文所有 模型(监督学习,非强化学习)训练方式等其他模型设定如下: 1) 训练数据及数据处理:所有个股过去 10 年内的时序特征,做 5 天采样,预测标签 为未来一个月(20 个交易日)的累计收益; 2) 训练集验证集比例:80%:20%; 3) 时序尺度选择:时序特征长度 60 天,基本面特征仅包含截面特征;4) 数据处理:时序特征需时序标准化(与最后一个时间步比值)、截面标准化(均值标 准差),基本面特征仅作截面去极值及 zscore 标准化; 5) 模型训练及调仓频次:一年更新,月频调仓; 6) 模型超参数:batch=截面个股数,lr=1e-4,损失函数 1-IC。
2.1 市场维度特征提取:Beta 空间
本节主要构造 beta 空间,该控件的构造围绕捕捉市场系统性风险展开,其中系统性风 险是指那些影响所有股票的共性风险因素,如宏观经济波动、政策变动、市场情绪等。构造 过程分为特征设计和模型构建两步,旨在量化个股对这些风险的不同敏感度。因此本文选取 以下 5 个与市场相关的股票特征用以刻画个股与市场的关联程度。本节主要采用时间卷积网络 TCN 作为 beta 空间特征的编码器。输入是上述六个特征构 成的 60 个交易日时序数据,经过线性投影层映射到统一维度。随后,两个 TCN 块依次处理 时序信息:第一个 TCN 块使用膨胀率为 1 的因果卷积,捕捉短期市场趋势;第二个 TCN 块 使用膨胀率为 2 的因果卷积,捕捉中期市场趋势。每个 TCN 块包含两层卷积,配备批归一 化和激活函数,并通过残差连接保持梯度稳定。最后,通过全局平均池化压缩时间维度,输 出一个 32 维向量作为 beta 空间编码,代表个股的系统性风险特征。整个模型在训练中作为 DTCL 框架的一部分,通过端到端学习优化参数,同时受正交约束确保与其他子空间解耦。

2.2 个股特异特征提取:alpha 空间
参考西南金工 2025 年 4 月发布的报告《PINN 信息约束与时序截面双流网络模型》中 的时序模型,该节针对个股特异特征提取空间(alpha 空间)将主要采取上述报告中使用的 多尺度 Transformer 模型,其中 alpha 空间特征为根据个股日频量价数据构建出 13 个量价 时序特征用以多尺度 Transformer 模型编码。
在多尺度 Transformer 模型构建中,本文主要区分为三个尺度:20 日、40 日以及 60 日, 分别表征短、中、长三个不同跨度的时序信息,并分别使用 transformer 层进行编码处理, 随后对 transformer 层输出的信息以 60 日长度为基准进行线性时间序列上采样,并引入可学 习参数的门控融合层对三个不同时间尺度的信息进行加权求和,最终引入全连接层输出收益 率预测。 根据 alpha 空间的定义,该空间致力于挖掘个股 alpha 信息,若在无其他空间配合的情 况 下 单 独 使用 该 空 间进 行 个股 收 益 率预 测 任 务, 也 可得 到 选 股效 果 不 错的 因子 (Alpha_Transformer)。自 2019 年 1 月至 2025 年 11 月,全 A 范围内 Alpha_Transformer 因子月均 IC(以 RankIC 表征)为 0.1137,多头组合(前 10%)年化收益率为 32.66%,月 均单边换手率 0.83X。整体来看,alpha 空间单独具备不俗的收益预测能力,且因子表现具 备一定的选股效果。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 克莱尔:一种用于韧性估计的因果机器学习方法(英译中).pdf
- 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 机器学习系列之一:mHC对Barra机器学习因子的改进.pdf
- 基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一.pdf
- 泛科技框架重构及选股模型初探.pdf
- 金工深度研究:基于level2数据图像的选股模型.pdf
- PINN信息约束与时序截面双流网络选股模型分析.pdf
- 基于时序神经网络的选股模型初探.pdf
- 投资分析工具专题研究报告:综合财务指标选股模型.pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 量化投资专题研究报告:机器学习合成非线性因子,增强效果如何?
- 2 清华大学-人工智能之机器学习.pdf
- 3 机器学习和知识图谱在行业轮动中的应用.pdf
- 4 亚马逊云科技7个典型的机器学习案例
- 5 兰德-在中美竞争中保持人工智能和机器学习的竞争优势.pdf
- 6 世界经济论坛-负责任地使用技术:Microsoft案例研究(英文)
- 7 机器学习资产配置:HMM模型择时及配置策略.pdf
- 8 德邦金工文献精译第一期:机器学习因子,在线性因子模型中捕获非线性.pdf
- 9 人人懂AI之从机器学习到大模型.pdf
- 10 IDC白皮书:加快机器学习开发步伐,加速构建智能应用程序.pdf
- 1 2025年人工智能与机器学习在医疗科技领域的崛起研究报告(英文版).pdf
- 2 人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略.pdf
- 3 基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一.pdf
- 4 金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子.pdf
- 5 机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案.pdf
- 6 机器学习系列之一:mHC对Barra机器学习因子的改进.pdf
- 7 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 8 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf
- 9 克莱尔:一种用于韧性估计的因果机器学习方法(英译中).pdf
- 10 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架
- 2 2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 5 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 6 2025年基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一
- 7 2025年金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子
- 8 2025年机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案
- 9 2025年人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略
- 10 2024年量化策略研究:DFQ机器学习行业轮动模型
- 1 2026年机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架
- 2 2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 5 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 6 2025年基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一
- 7 2025年金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子
- 8 2025年机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案
- 9 2025年人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略
- 10 2026年泛科技框架重构及选股模型初探
- 最新文档
- 最新精读
- 1 中国重汽公司深度研究:从周期到周期成长,中国重汽H的盈利中枢与全球视野下的价值重估.pdf
- 2 新城控股公司研究报告:双轮驱动战略笃行,商业竞争力与财务稳健性巩固.pdf
- 3 石油加工行业大炼化周报:炼厂保护性降负,推动能化产品价格价差上行.pdf
- 4 汽车和汽车零部件行业周报:“十五五”规划发布,战略发展智能汽车+具身智能.pdf
- 5 耐用消费产业行业周报:新型烟草多政策利好渗透率提升,拓竹发布首份消费级3D趋势报告.pdf
- 6 正泰电器公司研究报告:如何看正泰电器出口能力和空间?.pdf
- 7 策略周报:聚焦中东局势和原油走势,A股震荡分化.pdf
- 8 基础材料能源行业月报:供给持续优化下26年景气有望上行.pdf
- 9 信用债周策略:同业存款自律管理升级对短债有何影响?.pdf
- 10 机械行业周机汇0314:从特斯拉看北美光伏产业链发展.pdf
- 1 2026年商业航天行业深度:行业现状、市场规模、产业链及相关公司深度梳理
- 2 2026年国产算力行业深度:驱动因素、政策支持、产业进程、突破方向及相关公司深度梳理
- 3 2025年商品半年度报告_原油:供给逐渐过剩,油价下探仍未结束
- 4 2026年汽车行业:空间、格局及竞争优势探究—两轮车、全地形车及低速四轮车赛道对比
- 5 2026年汽车行业:关注整车预期筑底后结构性α行情,特斯拉Optimus明确今夏量产
- 6 2026年日本资本市场展望:如何看待高市时代下的日本?
- 7 2026年公募REITs春季策略展望:存量重构开新局,REITs蓝海向未来
- 8 2026年从风险识别到价值挖掘:中小银行二永债投资策略分析
- 9 2026年ROE稳定与ROE提升下的两类策略构建
- 10 2026年春季黄金投资策略展望:已凌千峰凭栏望,犹有青云万里程
