2026年深度学习系列之一：在线学习增强选股模型的适应性

来源：天风证券
发布时间：2026/01/24
浏览次数：91
举报

引言

深度学习在量化选股领域中的应用，正凭借其卓越的非线性分析能力和对海量数据的高效处理，展现出显著的优势，并逐渐成为提升投资决策效能的关键技术。然而近年来，基于量价数据的深度学习选股模型，其回撤发生的频率较以往有所上升，这类回撤往往在市场交易模式发生剧烈切换时出现，例如突发性的事件冲击或投资主题的快速轮动。深度学习模型通常依赖于从历史数据中挖掘规律进行学习，然而，当市场风格在样本外发生切换时，模型往往难以快速适应，修复的速度也可能较为迟缓。这一问题通常源于数据中的概念漂移（Concept drift）：由于金融环境的动态变化，影响资产价格的底层规律可能随时间发生改变，导致样本外测试数据的分布不再与训练数据分布一致，从而显著影响模型的表现。

为缓解金融数据中的概念漂移问题，提升模型的稳健性，目前研究探索了多种方向：在线学习（Online learning）与增量更新（Incremental learning），即模型不再是一次性训练完成，而是随着新数据的到来进行持续或周期性的增量更新，从而及时捕捉市场规律的最新变化；集成学习（Ensemble learning），即不依赖单一模型，而是采用集成方法，动态地组合多个具有不同偏好的基础模型，根据各模型近期表现动态调整权重，使整体模型能更灵活地适应不同市场环境；元学习（Meta-learning）与领域自适应（Domain adaptation），利用元学习框架，使模型具备“学会如何学习”的能力，从而在新市场环境下能基于少量样本快速调整。此外，领域自适应技术旨在对齐不同时期的数据分布，学习更具泛化性的特征表示。在线学习通过持续将新到达的数据转化为训练样本，并基于新样本上的预测误差对模型参数进行微调，相比滚动全样本重训练，显著地提升了训练效率。然而，这种学习方式也面临两个关键挑战： (1) 灾难性遗忘：在线学习过程中，模型容易过拟合（Overfit）新到达的训练样本，导致对历史数据中所学知识出现灾难性遗忘现象（Catastrophic Forgetting）。 (2) 信息延迟：新训练样本与测试样本之间也可能存在概念漂移。由于预测窗口的存在，最新数据对应的标签无法即时获取，所以新训练样本并非最新，其距离测试样本至少间隔一个预测窗口的长度。对于灾难性遗忘问题，通常的应对方式包括关键参数冻结、小学习率更新、经验回放机制等。一方面尽可能多的保留训练集中的关键知识，另一方面在模型微调更新时考虑历史样本实现“温故知新”。新训练样本与测试样本之间潜在的概念漂移可能会带来较大的负面影响。假设??表示?日对应的特征，?日收盘后可以获取，考虑长度为?的预测窗口，??对应的标签??通常由? + 1日与? + ? + 1日数据进行计算，即延迟?日后才可以获取。所以在线学习过程中，?日用来微调模型的训练样本并不是? − 1日数据，而是? − ? − 1日数据(??−?−1 , ??−?−1 )。[1]中的研究表明概念漂移很可能在新训练样本与测试样本之间的时间间隔中发生，且对模型性能的负面影响随间隔的增大而增大，这在一定程度上限制了在线学习的有效性。传统的在线学习考虑了训练集与新训练样本之间的概念漂移，但却忽视了新训练样本与测试样本之间的概念漂移。

模型架构与训练方式

2.1 模型架构

模型由基础模型和适配器组成。基础模型使用一个多窗口期信息融合模型，将股票长期、中期以及短期的量价特征分别进行标准化后融合，消除冗余信息并给出选股信号。适配器主要作用是降低新训练样本与测试样本之间的概念漂移对模型造成的影响，将识别到的概念漂移转化为对模型参数的缩放调整。

2.2 离线学习

在线学习之前，通常需要对模型进行预训练，即离线学习。为更好地利用历史数据并提升稳健性，我们选择每年用扩展窗口滚动重训练的方式更新全部模型参数，这部分训练离线进行。在年内应用在线学习的方式每日更新调整参数。在数据输入方面，包含最高价、开盘价、最低价、收盘价、成交量与成交额的 5min 量价序列。对数据进行多窗口期划分与标准化。窗口期长度分别选择 1、3、5、10、20、60 个交易日，在每个时间窗口内部分别进行标准化，流程为对成交量及成交额数据对数处理后，对全部序列进行窗口内时序 z-score 处理。然后经过 Log-signature 变换得到不同窗口对应的特征集，涵盖短期、中期与长期特征，具有不同的侧重点。为提升训练过程的稳定性，特征集在输入模型前做截面标准化。

训练时，每个交易日的所有股票数据作为一个 batch，标签选择为 t+1 到 t+11 日的收益率，这里对收益率进行行业市值中性化以及截面标准化处理。从 2018 年开始逐年滚动训练模型，为降低随机性并提升稳健性，离线训练模型时选择扩展窗口并进行 5 折交叉验证。扩展窗口即窗口期起始日保持不变，窗口期结束日逐年移动扩展。另外在 5 折交叉验证中，将数据集按时间顺序分为 5 部分，第一次训练时将第一部分作为验证集，其余部分作为训练集，依此类推，需要注意的是验证集剔除了与训练集相邻的部分时间。每个验证集上设置 20 轮早停，5 折交叉验证共得到 5 个模型，且每个模型契合的市场环境有所不同。传统的训练过程一般将最近的时间段数据设定为验证集，但事实上，由于分布漂移，样本外的交易模式并不一定与前一年保持一致，选择多个验证集下的模型并集成有利于模型的样本外泛化。离线训练的流程与标准的训练方式类似，前向传播计算输出，再反向传播优化带适配器模型的全部参数，即离线学习时基础模型与适配器作为一个整体进行训练。训练流程的区别在于输入包含 2 个批次的数据，包括当前批次与上一批次，主要目的是让适配器学习将批次间的概念漂移转化为对模型的参数调整。需要注意的是，在训练时批次之间的时间顺序是被打乱的，从而能够合成多样化的概念漂移，以便更好地训练适配器。在线阶段可能会遇到历史数据中从未见过的新概念，但其概念漂移可能与历史数据中学习到的有些漂移模式较为相似。由于参数调整依赖概念漂移而非概念本身，因此，即使目标概念是全新的，适配器也有可能生成较优的参数调整。

2.3 在线学习

每年末，离线学习将得到 5 组模型的参数。在新的一年分别以离线学习得到的参数为基础进行在线学习，过程中模型不断进行微调与预测，模型参数随新数据的到来而不断更新。为缓解在线学习阶段的灾难性遗忘，我们一方面对基础模型中特征提取层的参数进行冻结，另一方面选择更小的学习率进行微调。

在线学习在每个交易日持续进行。在其中一个交易日中，在线学习分为两个阶段：微调和预测。微调阶段用当前可得的最新数据（带标签）作为训练样本，在上一次微调得到参数的基础上进行更新。预测阶段参照前文中概念漂移估计和主动模型适应对模型参数进行暂时性缩放调整，然后基于当前样本特征输出结果。在下一个交易日再次进行微调与预测，以此类推。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）