2023年基于时序神经网络的选股模型初探

来源：中信建投证券
发布时间：2023/12/11
浏览次数：768
举报

相关深度报告REPORTS

基于时序神经网络的选股模型初探.pdf

基于时序神经网络的选股模型初探。对于时序数据，常用处理模块包括RNN、CNN和Attention。三者的作用各不相同：RNN擅于捕捉长期宏观依赖关系；CNN擅于捕捉短期局部依赖关系；Attention可为时间或变量加权。时序模型结构选择9类结构各异的时序模型，包含GRU、AGRU、TPA、GAT、LSTNet、TCN、TCAN、XCM和Transformer。其中，AGRU模型增加时序注意力层；TPA模型侧重识别关键变量的时序模式；LSTNet模型包含短期信息、长期信息、周期信息、线性稳健预测的多种学习途径；GAT模型增加图注意力层；XCM模型仅用CNN模块实现低复杂度和高可解释性的结构；TC...

一、前言

1.1、时序模型概述

本篇报告作为前两篇专题（《基于循环神经网络的选股模型初探》与《基于循环神经网络的选股模型改进》）的拓展，对时序模型结构做进一步探讨。将时序处理模块由 RNN 拓展为 RNN、CNN 和 Attention 三大类，将时序模型结构由简单 GRU 拓展为 GRU、AGRU、TPA、GAT、LSTNet、TCN、TCAN、XCM 和 Transformer 九种，从模型结构介绍、到模型间互相关联、再到多模型结合，对时序神经网络的选股应用做了初步探究。根据测试结果得到以下初步结论：1）单模型测试下，TPA 和 TCN 表现较突出；2）模型间的预测相关程度与模型结构的相似性有密切关联；3）相较于单模型结果，多模型整合后的绩效表现有全面提升、分年表现更为稳定；4）基于多模型构建中证 1000 指数增强组合，年化超额收益可达 18.6%、信息比率为 2.63。

1.2、时序数据简介

时序模型通常会考虑多维时序数据，包含三个维度：样本、变量和时间步。数据维度对模型结构设计颇为重要，可以从三个维度内部或三个维度之间提取丰富的特征信息。以基础模块而言，譬如 RNN 可以识别时间模式信息、Attention 可以识别关键变量信息、CNN 可以识别时间步与变量的联合信息、GNN 可以识别样本间关联信息。在特征输入环节，选择 8 个日度行情特征作为特征集，包括：开盘价、收盘价、最高价、最低价、均价、成交额、成交量和市值。而后进行统一处理操作，涉及：1）序列截取，截取 30 日序列长度；2）时序变换，可以去除量纲并保留时序信息；3）截面变换，将所有特征缩放到同一尺度以便模型训练；4）缺失填补，对低缺失率的序列样本做填补。

二、时序模型结构

2.1、时序处理模块

对于时序数据，常用的处理模块包括 RNN、CNN 和 Attention。三者的作用各不相同：RNN 擅于捕捉长期宏观依赖关系；CNN 擅于捕捉短期局部依赖关系；Attention 可为时间或变量加权。

循环神经网络（RNN）专用于序列数据建模，利用其内部循环结构捕捉序列前后的依赖关系。常用的 RNN 模型包括长短期存储器（LSTM）、门控循环单元（GRU）等，可改善长期依赖效应。卷积神经网络（CNN）常用于图像数据建模，通过局部感受野捕捉空间依赖关系。为了将 CNN 应用于序列数据，可以使用因果卷积（Casual Convolution）即仅考虑序列的历史信息进行预测，同时为了削弱感受野的局限性，可以使用膨胀卷积（Dilated Convolution）纳入更早的历史信息。注意力机制（Attention Mechanism）适用于多种场景，使用加权操作捕捉关键信息。对于序列数据而言，可以直接聚焦于长历史窗口内的关键时间步。

2.2、相关时序模型

随着研究的深入，通常会采用多种模块的组合来搭建模型。我们列举了 9 类常见的时序预测模型，分别使用了不同的模块或不同的搭建方法。其中，相对基础的模型结构为 GRU 模型，也是前两篇报告中使用的核心结构，原始数据经过 GRU 提取特征，再输入到 MLP 用于特征决策，最终输出预测结果。

以模块的丰富度而言，GRU、Transformer、TCN、XCM 均使用单一类型模块，AGRU、LSTNet、TCAN 使用两种类型模块，GAT、TPA 则使用了三种类型模块。以模块的种类而言，GRU、AGRU、LSTNet、GAT、TPA 均使用 RNN 模块，LSTNet、TCN、TPA、TCAN、XCM 均使用 CNN 模块，AGRU、Transformer、GAT、TPA、TCAN 均使用 Attention 模块，此外 GAT 还涉及 GNN 模块。以模型的复杂度而言，参考后文各模型的超参设定，计算参数量来衡量模型复杂度，由低到高依次为 XCM、GRU、GAT、AGRU、TPA、LST、TCN、TCAN、TF。

2.3、时序模型结构

2.3.1 AGRU 模型

相对于基础 GRU 模型结构，AGRU 模型在此基础上增加时序注意力层。以自适应权重聚合各时间步的隐状态，增强对不同时间步的感知能力。尽管 GRU 模型能捕捉长期依赖关系，但时序注意力能更直接识别关键时间步。在决策阶段，将所有时间步的加权信息和最后时间步的隐状态拼接起来，共同用于最终的预测。

2.3.2 TPA 模型

相较于前一节的 AGRU 模型，TPA 模型同样关注注意力机制，但更侧重于识别关键变量的时序模式，也更适用于多维时序数据。在 GRU 之后使用 CNN 来提取单个特征的时序模式，之后经过注意力机制识别关键特征，而在决策阶段与 AGRU 类似，合并注意力加权信息和最后时间步的隐状态共同用于最终的预测。

2.3.3 LSTNet 模型

LSTNet 模型全称是 Long- and Short- Term Time-Series Network，顾名思义专注于识别不同期限长度的时序模式。LSTNet 模型结构拥有 4 种模块，包含 CNN、GRU、Skip GRU 和 AR。如图表 7 所示，1）使用 CNN 捕捉短期模式，在时间维度上用短期窗口提取局部信息；2）使用 GRU 捕捉长期模式，经过 CNN 提取的多种短期模式，再进一步提取更长期模式；3）使用 Skip GRU 捕捉周期性模式，实际是根据一定间隔重组数据样本再输入到 GRU；4）使用线性 AR 结构提供稳健预测，通过 highway 形式直接输入原始数据，相较于非线性结构对数据尺度敏感性会更低；5）整合多源信息用于最终预测，一方面是拼接 GRU 与 Skip Gru 的信息，另一方面是再叠加 AR 的信息。

2.3.4 GAT 模型

相对于基础 GRU 模型结构，GAT 模型在此基础上增加图注意力层。将样本看作是节点，将 GRU 提取最后时间步的隐状态作为节点特征，通过自注意力机制计算两两节点间的注意力系数，再通过激活函数和归一化操作得到注意力权重矩阵，在决策阶段仍与 AGRU 类似，合并注意力加权信息和最后时间步的隐状态共同用于最终的预测。

2.3.5 XCM 模型

XCM 模型由 3 个卷积子模块构成，模型复杂度较低、同时可解释性程度较高。1）使用 2 维 CNN 提取单特征的时序模式，并通过填充保持维度；2）使用 1 维 CNN 提取联合特征的时序模式，并通过填充保持维度；3）使用 1 维 CNN 提取高层特征的时序模式，将前 2 个 CNN 模块提取的特征横向拼接，再次提取特征并填充保持维度；4）经过池化后，用于最终决策。

2.3.6 TCN 模型

TCN 模型结构的核心在于 TCN 模块，改进 CNN 结构以适配序列数据建模。1）因果卷积：仅考虑序列的历史信息进行预测；2）膨胀卷积：以特定间隔接收信息，削弱感受野的局限性来纳入更早的历史信息；3）残差连接：有效应对深层网络模型性能退化的问题，同时能利用不同层级特征。

2.3.7 TCAN 模型

相对于 TCN 模型结构，TCAN 模型在 TCN 模块的基础上增加注意力机制。1）时序注意力：将历史时间步的关键信息整合至当前步；2）增强残差连接：将时间步加权的输入信息直接连接至输出层。

2.3.8 TF 模型

Transformer 模型结构复杂度较高，包含多个模块。1）嵌入层：将原始特征信息转为更丰富表示；2）位置编码：将位置信息表征为向量形式；3）编码器模块：依次经过自注意力层、正则化层、前馈层和正则化层，同时使用残差连接；4）解码器：使用全连接层。

三、单时序模型测试

3.1、模型训练与测试设定

模型训练方面，1）样本划分：基于滑动时间窗口按顺序前推 1 年验证集和 8 年训练集；2）更新频率：自 2016 年末起，每两年重新训练模型；3）抽样规则：每个批属于同期样本；4）目标函数：设置单目标函数，相关系数取反；5）迭代轮次：最多 200 轮，早停机制 10 轮。模型测试方面，1）回测区间：从 2017 年 1 月至 2023 年 10 月，以周度频率生成预测结果；2）因子处理：将预测结果看作是深度学习因子，进行异常值缩减、标准化（中性化）预处理；3）随机性：采用相同的参数初始化方法，并设定 5 个固定的随机种子，利于比对测试结果；4）结果整合：对不同随机性的结果进行均值整合；5）IC 回测：计算当收 IC 和次均 IC，分别以因子期当日收盘价或次日均价作为首端价格计算收益率。

3.2、模型测试结果

对前文介绍的 9 个模型进行逐一测试，1）TCN 模型表现较优，均值 IC 分别和中位 IC 分别达到 11.31%和 11.22%，最大差异仅为 0.26%；2）TF 模型表现较弱，中位 IC 仅有 8.66%、最大差异高达 1.73%。

对 9 个模型的分年当收 IC 表现进行对比，如图表 22 所示：1）随更新频率模型表现呈现轮转，2017-2018 年 TPA 与 TCN 表现突出、2019-2020 年 AGRU 与 TPA 表现突出、2021-2022 年 GRU 与 AGRU 表现突出、2023 年 TCAN 与 XCM 表现突出；2）GRU、AGRU、TPA 在 2017-2022 年表现偏强势，但在 2023 年表现偏弱势；3）XCM、 TF 在 2017-2022 年表现偏弱势，但在 2023 年表现偏强势；4）TCN 模型在各年份均无明显弱势表现。

四、多时序模型测试

4.1、组合构建与测试设定

多空组合测试方面，1）回测区间：从 2017 年 1 月至 2023 年 10 月；2）分组规则：分组数量为 10 组，组内个股等权配置；3）分组收益：计算每组相对标的指数超额收益；4）股票池：全市场、沪深 300、中证 500 和中证 1000，其中全市场对标指数为万德全 A；3）持仓个股：剔除新股、停牌股、ST 股和涨跌停个股；4）成交设定：按次日均价成交，虽然不考虑交易费率，但会计算每组换手率。

增强组合测试方面，1）回测区间：从 2017 年 1 月至 2023 年 10 月；2）候选股票池：剔除新股、剔除 ST 股、剔除长期停牌股；3）优化目标：最大化多模型等权预测结果，预测值经过标准化与中性化处理；4）约束限制：指数内权重下限 80%、个股权重偏离限定 1%、行业权重偏离限定 1.5%、风格暴露偏离限定 0.2、换手率单边上限 15%；5）持仓设定：剔除停牌股和涨跌停股；6）成交设定：按次日均价成交，费率双边千三。

4.2、模型相关性分析

为了便于模型间比较，将各模型的五种随机种子结果按均值整合为单一结果，再做后续统计与测试。考察模型间预测的两两相关性，如图表 23 所示：1）GRU、AGRU、TPA 间极高相关，从模型结构就不难发现三者高度相似，均以 GRU 作为前期特征提取模块并以最后时间步的隐状态最为主要决策依据，区别在于 AGRU 和 TPA 补充了部分注意力信息；2）GAT、LST 与前三者亦有高相关，尽管模型结构有部分差异，但核心特征提取模块仍以 GRU 为主；3）TCN、TCAN 与前五者相关性略低，主要源于 TCN 与 RNN 的序列建模有部分差异；4）XCM、 TF 与前七者相关性偏低，XCM 和 TF 分别仅使用 CNN 模块和注意力机制，区别于一般序列建模形式。

为了考察模型间增益效果，尝试将模型进行两两等权结合。如图表 24 左侧所示，当收 IC 绩效下：1）强强结合增益明显，TPA 和 TCN 是表现最强的单模型，两者结合后依然表现最强并有进一步提升；2）弱模型有拖累，XCM 和 TF 是表现偏弱的单模型，与其它模型结合后会有不同程度拉低效果。如图表 24 右侧所示，次均 IC 绩效下：1）高相关模型间增益有限，GRU、AGRU、TPA、GAT、LST 互相高相关，两两结合增益不及其它低相关模型；2）强弱结合有所增益，TCN 和 TF 分别是表现稍强和稍弱的单模型，但两者结合后表现最强并有所提升；3）弱模型亦有小幅增益，XCM 和 TF 是表现偏弱的单模型，与其它模型结合后会有小幅拉升效果。

4.3、多模型叠加分析

为了考察多模型结合的增益效果，将 9 个模型结果按照等权配置进行叠加。1）多模型的 IC 绩效全面强于单模型表现；2）多模型的次均 IC 提升幅度略高于当收 IC。进一步观察分年 IC 绩效，如图表 26 所示，相较于单模型：1）多模型无明显弱势年份，除了 2017 年表现位于中游，其余年份表现靠前；2）多模型逐年表现更平滑、没有极端表现。

4.4、多模型组合绩效

将多模型预测结果在不同股票池内进行分组测试，1）中证 1000 内多头超额收益最高，原始因子的多头超额可达 29.5%，略高于全市场、明显高于中证 500 和沪深 300；2）全市场内多空收益最高，原始因子的多空收益可达 76.0%，其中空头收益贡献占比超过 60%；3）中性化因子换手率略低，最头组的换手率处于 55%~59%；4）中性化因子多空净值回撤率更低，相较于原始因子，中性化因子的最大回撤率能缩减一半。

利用多模型预测结果构建相对于中证 1000 的指数增强组合，1）总体绩效方面，年化超额收益达 18.6%、信息比率达 2.63、双边换手率约 30%；2）分年绩效方面，各年均有显著正向超额，仅 2021 年略低于 10%，2023 年的年化超额可达 26%；3）超额净值方面，大幅回撤集中出现在三个时段， 2020 年的年初、2021 年的年中和 2022 年的上半年。

五、总结

本篇报告作为前两篇专题的拓展，将时序处理模块拓宽为三大类、将时序模型结构拓宽为九种。从分析与测试结果来看：1）单模型测试下，TPA 和 TCN 表现较突出；2）模型间的预测相关程度与模型结构的相似性有密切关联；3）相较于单模型结果，多模型整合后的绩效表现有全面提升、分年表现更为稳定；4）基于多模型构建中证 1000 指数增强组合，年化超额收益可达 18.6%、信息比率为 2.63。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）