2025年金融工程专题报告:深度学习因子选股体系

  • 来源:财通证券
  • 发布时间:2025/08/05
  • 浏览次数:249
  • 举报
相关深度报告REPORTS

金融工程专题报告:深度学习因子选股体系.pdf

金融工程专题报告:深度学习因子选股体系。特征提取:基于“时序+截面”的基础架构,我们设计了五类差异化类网络结构,这些网络对同一输入能得到低相关因子输出。基于日度行情、分钟行情以及手工特征三类数据,我们训练了10个模型,模型间平均相关性仅55%。Alpha信号:基于线性等权、树模型与专家网络三类加权方式,我们将数百个神经网络特征集成为alpha信号。综合因子自2019年以来5日IC均值为13.3%,10日IC均值为15.0%,多头组合超额收益为49.0%。风险模型:相较于传统barra等风险模型基于投资逻辑构建风险特征,我们用神经网络通过端到端学习模式直接从原始量价数据中...

1 深度学习选股策略

在当今快速发展的金融市场中,如何有效利用深度学习技术进行股票预测和投资 组合优化已成为众多投资者关注的焦点。传统的多因子模型通常通过手工构建因 子来预测股票截面收益,并进一步通过组合优化得到股票持仓。 然而多因子模型依赖线性回归与人工因子挖掘,在处理高频非结构化数据时存在 维度灾难与特征表达不足的问题。深度学习通过端到端学习与自动特征提取,为 解决上述痛点提供了新范式。 与传统方法不同,我们将获取超额收益的方式从理解市场、理解基本面切换到了 数据建模层面,将研究重心从“逻辑驱动”转向“数据驱动”,通过深度学习挖掘 高频数据中的非线性模式,弥补传统框架在短期定价效率上的不足。 在“原始数据→自动特征提取→因子合成”的端到端学习框架下,我们将深度学 习指数增强体系的构建目标定位于以下几个方面:

多模态: 多样化数据源是模型性能的基础保障,融合日度行情、分钟行情、手工特征、基 本面财务指标等多样化信息,提升 alpha 信号的边际效能。 多模型: 基于“时序+截面”的基础架构,通过设计差异化类网络结构,在单一数据集中多 次训练以获取增量信息;对于网络提取的因子特征,采用多类别因子集成模型, 提升最终 alpha 信号的稳健性。 全流程: 风险控制是构建稳健投资组合不可或缺的一环,以往风险模型通常是基于金融逻 辑构建风险特征,而使用神经网络则可以通过端到端学习模式直接从原始量价数 据中识别高维非线性风险模式,让深度学习同时赋能 alpha 模型和风险模型。 低换手: 以往“AI+量价”类模型通常追求高换手,赚取市场中短期交易性机会,使用更长 预测窗口、更长的回看周期构建 alpha 信号,训练流程中更多地融合基本面信息, 减缓了 alpha 信号的衰减,使得模型更适配低换手的交易模式。 最终,我们基于深度学习构建了沪深 300、中证 500 及中证 1000 指数增强策略: 同等换手水平前提下,策略相对传统多因子模型能获取更高超额收益,同时保持 更低收益波动和回撤水平。

2 数据与网络

2.1 数据输入

按照数据频率,我们使用日度行情、分钟行情和手工特征一共 3 类数据集合,利 用神经网络在各类数据集中独立提取 alpha 特征。

2.2 网络结构

长短期记忆网络(LSTM)模型通过时间维度上的迭代处理捕捉序列长期依赖关系, 但其计算过程仅限于单一样本内部,无法建模样本间的交互特征。为弥补这一局 限性,我们采用时序网络和截面网络组合的架构,实现多维度捕捉市场特征。

时序网络

我们采用 LSTM 结合自注意力(self-attention)机制的结构,以有效捕捉股票时间 序列中的长期依赖关系。 LSTM 通过门控结构(遗忘门、输入门、输出门)选择性保留历史信息,适用于处 理非平稳的股票价格序列,能够精准捕捉到关键的时序动态。而自注意力机制进 一步强化序列内部关键时间点的权重分配,可有效识别重大事件日或趋势转折点 等具有显著影响力的特征。

截面网络

在实际的投资决策中,除了单只股票的时间序列信息外,股票间的截面关联同样 蕴含着重要信息。为了捕捉股票间的相互关系,我们引入了图注意力网络 GAT (Graph Attention Network)。该网络通过注意力机制来描述股票间的复杂截面关 系,提供市场动态的全局分析视角。

2.3 模型训练

因子输出

使用上述 3 类数据集训练 10 个模型,模型输出为因子集合,包含: 1)日度行情数据:5 个因子集合; 2)分钟行情数据:3 个因子集合; 3)统计指标数据:2 个因子集合。 其中,每个因子集合包含 N 个信号,模型绩效基于 N 个信号均值评估。

滚动训练

采用滚动时间窗口训练策略,每年滚动训练 1 次,以前七年的数据作为训练集, 最近 2 年的数据作为验证集。

批量训练与样本构建

1)按日期拆分数据,每个 batch 样本为 T 日全市场股票数据; 2)每个 epoch 在训练集中随机抽取 batch 进行训练。

损失函数设计

采用 MSE 作为基础损失函数,并加入相关性正则项以抑制特征间的冗余关联。

2.4 日度行情

出于算力与信息平衡考虑,传统建模通常使用 30 日量价信息,但自 2023 年以来 该时间窗口的 Alpha 出现明显的衰减。 我们分别采用时序长度为 30 日和 150 日的行情信息独立提取因子特征,对比结 果发现,自 2019 至 2022 年间,两者绩效接近,从 2023 年开始,30 日行情的多 头超额收益出现明显衰减。

1) 模型 1:RNN-GAT

基于RNN-GAT模型提取的30日行情因子,自2019年以来5日IC均值为11.3%, 10 日 IC 均值为 12.4%,多头超额收益为 26.6%。因子多头超额收益在 2023 年 之后出现显著下降。

基于RNN-GAT模型提取的150日行情因子,自2019年以来5日IC均值为10.4%, 10 日 IC 均值为 11.5%,多头超额收益为 35.0%,2023 年以后因子多头组合超额 收益未出现明显衰减。由于短序列信息在近几年 alpha 衰减明显,我们在本文中 均使用长序列行情数据。

2) 模型 2:CNN-RNN-GAT

RNN-GAT 模型在网络结构维度可以在时序结构和截面结构进行调整,我们尝试对 网络时序结构进行改变。 长序列数据进入 RNN 模型可能存在信息遗忘等问题,我们尝试通过卷积神经网络 (CNN)在时序维度聚合长序列。 具体来说,在数据进入神经网络之前,数据先过卷积层。令每 5 根日线共享 CNN 网络,将数据处理成周线特征,最终将 150 日数据整合成序列长度为 30 的周线 信息,进入时序网络。

基于 CNN-RNN-GAT 模型得到的因子,自 2019 年以来 5 日 IC 均值为 10.7%,10 日 IC 均值为 11.8%,多头超额收益为 35.0%,因子绩效与模型 1 接近。 模型 2 与模型 1 使用相同数据输入,仅仅改变时序网络结构,但网络提取出的因 子特征相关性较低,因子值截面相关性仅 62%。

3) 模型 3:RNN-GAT2

对于模型 3,我们尝试对 RNN-GAT 模型的截面网络进行调整,图模型 GAT 的核 心依托于样本间的预定义邻接关系,因此我们通过调整邻接矩阵获取信息增量。

4) 模型 4:RNN-GAT2-FUNDA

模型 2 和模型 3 在模型 1 基础上分别改变时序和截面的结构,在模型 4 中,我们 尝试引入基本面信息,让量价和基本面混合训练,期望借助信息共振获取增量。 首先,短期内基本面财务因子在时序维度的变化并不明显,但基本面因子相比于 量价因子在截面上样本之间的关联信息应该更强。因此,基本面信息只经过截面 网络而不经过时序网络。 具体来说,将选取的核心基本面指标经标准化处理后与 LSTM 隐藏层输出进行特 征拼接,形成融合市场时序特征与财务基本面信息的复合表征,并将拼接后的混 合特征输入图注意力网络 GAT。

基于 RNN-GAT2-Funda 模型得到的因子,自 2019 年以来 5 日 IC 均值为 10.9%, 10 日 IC 均值为 12.4%,多头超额收益为 39.1%。在模型 4 中加入基本面信息之 后多头提升明显,同时与模型1相关性进一步下降,因子值截面相关性均值仅55%。

5) 模型 5:CNN-RNN-GAT2-FUNDA

模型 2 在模型 1 基础之上通过卷积网络改变时序结构,相似地,模型 5 在模型 4 基础上增加卷积结构,让行情数据先经过卷积层后再提取时序特征与基本面信息 进行组合。

基于 CNN-RNN-GAT2-Funda 模型得到的因子,自 2019 年以来 5 日 IC 均值为 10.7%,10 日 IC 均值为 12.0%,多头超额收益为 35.7%。 模型 5 与模型 1 具有较明显独立性,因子值截面相关性进一步下降到 54%;模型 5 与模型 4 在数据和网络结构上相似性较高,两模型相关性为 70%。

5 个日行情模型因子值相关性均值为 60%,整体呈现出较低相关性,且因子绩效 接近。这表明在数据输入信息足够丰富的前提下,采用多模型反复提取特征能获 取显著的增量 alpha 信息。

2.5 分钟行情

相比于日行情,分钟行情拥有精细的颗粒度,基于分钟行情提取的因子信息与日 行情具有较高的独立性。 首先,对于分钟行情我们秉承与日度行情一致的处理思路,尽可能使用长序列数 据,让数据输入拥有足够的信息量。 我们尝试使用 2 小时和半小时 K 线两类不同颗粒度数据进行建模: 1)两小时分钟线,使用 300 根,共计 150 天信息; 2)半小时分钟线,使用 720 根,共计 90 天信息; 由于分钟数据在时序维度较长,我们先用卷积网络进行降维处理,以网络模型 5 CNN-RNN-GAT2-Funda 为例,我们展示模型在两类分钟行情中因子绩效。 此外,对于分钟数据的预处理,我们建议采用与日行情一致的方案,所有价格用 序列起始或者终止点价格进行时序标准化;相反的,如果简单将日内价格相对日 内收盘价进行时序标准化,股票价格在日与日之间的联系将会被打断。

基于 2 小时行情提取的因子,自 2019 年以来 5 日 IC 均值为 10.4%,10 日 IC 均 值为 11.7%;多头组合年后超额收益为 33.8%,多头 IR 为 3.09。因子绩效略弱 于日行情,但因子与日行情平均相关性在 60%附近。

基于半小时行情提取的因子,自 2019 年以来 5 日 IC 均值为 10.1%,10 日 IC 均 值为 11.4%;多头组合年后超额收益为 32.7%,多头 IR 为 2.84。因子绩效略弱 于日行情,但因子独立性显著,其与部分日行情因子相关性降低到约 45%上下。

两小时行情与半小时行情因子截面相关性约为 50%,两因子与 5 个日线因子平均 相关性约为 56%,分钟信息对于组合的增量 alpha 贡献明显。

2.6 统计指标

对于统计指标数据,我们使用两类不同的特征分别训练模型,具体设计如下: 1)未经过预处理的简单统计特征,如资金流中的大小单占比等; 2)手工构建的标准化选股因子,如基本面、量价因子; 由于量价指标使用长时序信息无太大意义,因此我们采用 30 天数据,并使用模型 RNN-GAT2-Funda 进行训练。 基于简单统计特征提取的因子,自 2019 年以来 5 日 IC 均值为 10.1%,10 日 IC 均值为 11.5%;多头组合超额收益为 24.4%,多头 IR 为 3.02。

基于选股因子特征提取的因子,自 2019 年以来 5 日 IC 均值为 10.8%,10 日 IC 均值为 12.1%;多头组合超额收益为 31.1%,多头 IR 为 2.83。

结果显示,两因子相关性约为 55%,因子与行情特征因子相关性约为 45%,信息 增量明显。

3 alpha 模型

我们基于日行情构建 5 个模型、分钟行情 3 个模型、统计特征 2 个模型,最终生 成 10 个模型,每个模型内 64 个信号,共 640 个信号。模型绩效以模型内 64 个 信号均值作为综合信号统计。我们分别尝试不同集成模式构建最终 alpha 信号。

3.1 简单等权

基于 3 类数据得到的 10 个因子集合的平均相关性约为 55%,因子 集之间的信息独立性较明显。

在模型间两两低相关性的前提下,信号等权通常就能取得极佳效果。 我们将以上各类因子简单平均得到等权因子。结果显示,等权因子 2019 年以来 5 日 IC 均值为 12.9%,10 日 IC 均值为 14.5%;多头组合年后超额收益为 42.7%, 多头 IR 为 3.36。因子绩效相比于任意单一模型大幅提升。

3.2 树模型加权

相比于简单线性等权处理,非线性加权往往能一定程度提升因子的多头组合绩效。 我们以树模型为例,展示了信号加权的过程。 2024 年市场风格的继续切换给予我们的历史教训在于模型不应该过度追随风格。 以 LightGBM 为例,每 2 个月滚动训练一次模型,我们展示分别以滚动 1 年和 3 年数据作为训练集合的分析结果。

1 年窗口得到的树模型集成信号 2019 年以来 5 日 IC 均值为 11.2%,10 日 IC 均 值为 12.7%;多头组合年后超额收益为 42.0%,多头 IR 为 3.67。

而 3 年窗口得到的树模型集成信号 2019 年以来 5 日 IC 均值为 11.7%,10 日 IC 均值为 13.2%;多头组合年后超额收益为 46.1%,多头 IR 为 3.78。 对比可知,无论对于多头超额收益、5 日 IC 或 10 日 IC,3 年训练窗口得到的集 成信号均优于 1 年训练窗口得到的集成信号。

我们采用 LightGBM、XGBoost、CatBoost 三类梯度提升树模型进行集成,每两个 月滚动训练一次模型,使用最近 3 年数据进行训练,对于不同模型的预测值取简 单平均得到树模型预测结果。

树模型加权因子自 2019 年以来 5 日 IC 均值为 11.9%,10 日 IC 均值为 13.3%。 多头组合超额收益为 43.1%,多头 IR 为 3.70。 树模型稳定性不如等权模型,因子 IC 相比等权模型出现下降,但是多头组合超额 收益和多头组合 IR 均出现明显提升。

3.3 网络加权

相比于等权或是使用传统机器学习算法集成信号,神经网络加权拥有更高的灵活 度。我们设计了一个多专家集成架构来加权信号集合。 我们采用基于时序卷积网络(TCN)的多专家集成架构,一共设置 4 个 Expert 专 家网络。TCN 相比等权或者树模型,其单一样本并非仅是信号的截面信息,而是 信号在时序变动的面板信息。 由于信号数量较多,我们将样本为股票最近 5 个交易日的因子值,TCN 网络使用 2 年数据为训练集,1 年为验证集。

3.4 综合信号

不局限于单一集成模式,我们将等权模型、树模型和网络模型三类信号取简单平 均。同时考虑到网络训练的随机性,从特征提取到特征集成,我们基于两个不同 的随机种子分别训练,得到的结果取简单平均。 综合因子自 2019 年以来 5 日 IC 均值为 13.3%,10 日 IC 均值为 15.0%,多头组 合超额收益为 49.0%,多头 IR 为 3.85。相比等权模型、树模型和网络模型,综 合因子 IC 均值和多头超额收益均是最优。

综合因子在核心成分中表现出较强选股能力,因子在沪深 300、中证 500、中证 1000 和国证 2000 指数成分股中多头组合超额收益年化值分别为 26.5%、22.7%、 33.4%和 39.6%。

4 风险模型

相较于传统 barra 等风险模型基于投资逻辑构建一些风险因子,我们尝试用神经 网络通过端到端学习模式直接从原始量价数据中识别高维非线性风险模式。

2019 年以来,基于日/分钟行情提取的风险因子 IC 均值长期在 0 附近,但|IC|均 值超过 15%;IC 序列在 2024 年后的波动明显放大,表现出更强的解释能力

5 指数增强组合

我们以综合信号作为 Alpha 得分,我们通过组合优化构建沪深 300、中证 500 和 中证 1000 指数增强组合。 相较于以往“AI+量价”模型追求高换手,赚取市场中短期定价不充分的交易性机 会,我们追求适配于机构投资者的低换手指增模型。 我们在构建 alpha 信号时使用了较长的预测窗口以及较长的回看周期,同时在量 价信号提取过程中融合了基本面信息,这减缓了 alpha 信号的衰减。按照周度调 仓标准,我们约束组合单周换手上限 10%,年单边换手率约 5.5 倍。 最终,组合中使用如下风控约束进行历史回溯: 交易费率:按照双边 0.3%计算交易成本; 指数成分权重下限:80%; 调仓周期:每周末得到持仓,按照周一均价撮合; 换手率约束:单次调仓约束单边 10%换手上限,年度单边换手率约 5.5 倍; 风格暴露:SIZE、AI 风险因子相对偏离上限 0.2,行业最大相对偏离上限 2%; 个股偏离:沪深 300 指数 1%,中证 500 指数 0.8%,中证 1000 指数 0.5%;

5.1 沪深 300 指数增强

基于深度学习框架,我们构建了沪深 300 指数增强组合。

2019 年以来,沪深 300 指数增强组合的年化收益为 18.2%,相对沪深 300 指数 的年化超额收益为 14.2%;组合年化跟踪误差为 4.5%,信息比率为 2.84。

5.2 中证 500 指数增强

基于深度学习框架,我们构建了中证 500 指数增强组合。

2019 年以来,中证 500 指数增强组合的年化绝对收益为 22.4%,相对中证 500 指数的年化超额收益为 17.2%;组合年化跟踪误差为 4.8%,信息比率为 3.16, 历史相对最大回撤幅度为-5.3%。

5.3 中证 1000 指数增强

基于深度学习框架,我们构建了中证 1000 指数增强组合。

2019 年以来,中证 1000 指数增强组合的年化绝对收益为 29.8%,相对中证 1000 指数的年化超额收益为 24.5%;组合年化跟踪误差为 5.4%,信息比率为 3.87, 历史相对最大回撤幅度为-5.1%。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至