2026年基于风格因子的非线性分域训练研究—机器学习系列九

来源：兴业证券
发布时间：2026/01/28
浏览次数：69
举报

相关深度报告REPORTS

基于风格因子的非线性分域训练研究—机器学习系列九.pdf

基于风格因子的非线性分域训练研究—机器学习系列九。兴证金工团队自2020年起便积极探索机器学习在量化领域的应用，以树模型为代表的宽基增强策略（沪深300指增等）表现优秀。目前，相关研究主要聚焦于两大方向：一是对现有成熟模型进行持续优化，二是推进新兴模型的实战化验证。本文以集成树模型为基础框架，在既有对抗训练模型之上，进一步引入分域训练思想，旨在提升模型的综合表现。基于风格因子的基础面板树分域：与传统以收益率预测为目标的决策树不同，面板树模型以最大化节点组合夏普比率为目标，在构建分组时自动实现风险对冲。本研究以风格因子作为特征，通过滚动训练方式动态对样本内外的股票进行分域。结果表明，...

引言

近年来，凭借卓越的数据建模能力，机器学习与深度学习模型在量化金融领域的地位日益重要，相关研究成果不断涌现。当前，学术界在该领域的研究可大致划分为两个主要方向：成熟算法的优化与新兴算法的探索。一方面，以无监督学习分类模型、树模型及卷积神经网络为代表的经典机器学习算法已在各类量化投资细分领域积累了丰富的研究基础，近期的创新性工作主要集中于算法性能与有效性上的改进与应用拓展。另一方面，以循环神经网络、大模型及强化学习为代表的新兴算法则侧重于算法层面的创新性研究，众多新兴研究在深度学习框架基础上，结合股票市场特性进行模型架构或训练方法的创新。兴证金工团队自 2020 年起便积极探索机器学习在量化领域的应用，并针对传统算法进行了大量的实证测试。时至今日，我们将机器学习的研究同样划分为两个主要方向：对现有成熟模型的优化以及新兴模型的实战化验证。在成熟模型优化方面，我们着重于提升改进方法的通用性和有效性，期望所提出的方法论能够适用于多种算法框架，能够让投资者在现有模型上进行低成本改进。而在新兴模型验证方面，我们强调结合团队既有研究积累，并从实际应用的角度出发，考察前沿技术模型在 A 股市场的有效性。本文中，我们将以集成树模型作为基础，在此前报告的基础上，尝试将分域训练的思想加入模型训练中，以期望进一步提升模型的表现。

在股票收益率预测中，分域训练是提升模型精准度与稳健性的关键策略。传统的全样本收益率预测模型通常忽视了一个事实：A 股市场存在显著的风格轮动与结构性差异。例如，科技成长股与金融蓝筹股不仅驱动逻辑不同，其波动特性、对各类因子的敏感性也迥异。若使用同一模型拟合全市场，类似于试图用一套规则解释所有现象，模型参数实则为各子域特征的“模糊折中”，其预测往往停留在市场平均水准，难以捕捉细分机会。不同于全域建模，分域建模的核心思想是“分类处理，精准建模”。它将全市场股票依据行业属性、市值规模、风格标签（如成长/价值）或波动特征划分为相对同质的子域，再为每个子域独立构建预测模型。这种做法的优势在于允许模型更聚焦于特定域内最有效的预测因子。同时，分域建模能更准确地刻画不同域特有的非线性关系与波动模式。最后，分域建模或有效隔离风险，防止某一域的异常波动或结构性变化通过统一模型参数污染其他域的预测。

本文中，我们将突破传统的线性分域方法，以风格因子作为基础，通过引入面板树模型，并进行适度改造以实现对训练集的非线性分域处理，并进一步基于分域后的样本差异进行精准建模，最终期望其能够提升基准模型的表现。本文结构安排如下：基于风格因子的非线性股票分域。基于风格因子的非线性股票分域：我们首先介绍基础的面板树模型，包含面板树的初衷以及其和分域建模的相关性。进一步，我们基于风格因子套用面板树进行基础的动态股票分域；基于分域的收益率预测模型：基于基础分域后的结果，我们采用滚动训练的形式进行基于分域样本的收益率预测模型搭建。具体来说，我们通过构建多头和空头数据集，并针对特征和 Label 采用不同的标准化方式，最后结合分域预测部分合并得到因子值；非线性股票分域模型改造与分域训练：针对上文基础分域模型遇到的问题，我们尝试提出改造方式，通过引入代表域的概念对面板树和分域训练框架进行改造，并进一步测试改造后因子值的表现；分域训练模型增强测试：最后，我们在相对严格的约束条件下进行针对沪深 300、中证 500 和中证 1000 指数增强的测试。

基于风格因子的非线性股票分域模型

本节中，我们将首先引入面板树的概念，从模型初衷、原理介绍到适应性改造，逐步将面板树与风格因子结合，以共同实现针对样本数据的非线性分域。

（一）面板树：以全局夏普比率作为优化目标的树结构

面板树模型（Panel Tree，可简称 P-Tree）是一种用于分析面板数据的机器学习方法，它结合了决策树的非参数特性与面板数据的结构特点。P-Tree 相对完整的框架始于 2021 年发表于 SSRN 的论文 Asset Pricing with Panel Tree underGlobal Split Criteria》。P-Tree 的核心创新在于提出了全局分裂准则：即分裂不再只考虑单个节点，而是以提升整个横截面资产组合的夏普比率等经济指标为目标。这使得模型生长具有明确的经济学指引，直接服务于构建更好的投资组合或定价因子。在这篇文章中，作者基于美国市场数据，通过 P-Tree 识别出驱动美股截面收益的关键特征交互（如长期反转、交易量波动与规模），在定价个股和投资组合方面，优于大部分已知的显性和隐性因子模型。在 2025 年金融学顶刊 Journal of Financial Economics》上发布的论文 Growing the Efficient Frontier on Panel Trees》，作者在资产定价实证中验证该模型，并进一步深化实证展示有效前沿的外推。

（二）基于风格因子的基础面板树构建

在本节中，我们将直接介绍以风格因子搭建的非全域面板树，并以此展开对于面板树模型的介绍。具体来说，面板数的训练和预测大致框架与传统机器学习模型基本一致。具体如下：

数据准备和预处理

我们同样采用年度重新训练的形式进行滚动训练。在每次训练时，我们选用 2009 年至训练集时间末端的月频数据作为训练集。具体数据维度包含：每月最后一个交易日所有股票的风格因子值数据，以及对应的未来一期股票收益率作为标签；每期每只股票（记为单个样本）以 10 个风格因子 Beta、Book-to-Price、Earnings Yield、Growth、Leverage、Liquidity、Momentum、Nonlinear Size、Residual Volatility 和 Size 作为特征数据，记为本次训练的完整面板数据。在完整面板数据的基础上，我们对预期收益率和特征数据进行常规清洗与预处理：对预期收益率数据，将个股名义月度收益减去固定的月度无风险利率，之后进行 1%–99%分位截尾，以抑制极端观测的影响；对特征数据，以月份作为横截面，对因子取值进行线性缩放，将不同量纲的因子映射到可比的 [0,1]区间，缺失因子值统一使用中位数进行填补。

超参数确定

处理好数据后，我们进一步基于训练集进行超参数确定。对于面板树而言，其本身涉及的超参数较少，核心超参数包含树的最大深度以及最大分裂轮数（类比于叶子个数）。我们将其设置为 5 层和 30 轮次。

面板树的生长过程

Step1：在给定的训练期内，模型首先将所有股票–月份样本视为一个整体根节点，按市值加权得到全集合组合的月度收益，并在叶子空间为 1 的情况下求解最大 Sharpe²组合，记下对应的 Sharpe²作为基准。

Step2：随后进入迭代生长过程。每一轮中，从当前所有叶节点中筛选出仍满足深度和样本量约束的节点，围绕可用的特征生成一系列特征–阈值候选切分，对每一个候选切分，按照高于/低于阈值的规则把该节点样本划分为左右两组，分别构造新的市值加权叶子组合收益；在保持其他叶子不变的前提下，将新旧叶子收益拼成新的叶子收益矩阵，重新在这一矩阵上做一次均值–方差优化。由于预期协方差矩阵和预期收益率均采用历史数据进行计算，因此可以直接通过每个叶子的组合收益率??，推导得出在指定组合收益率矩阵?下的最优权重解，具体公式如下。得到更新后的最优 Sharpe²，并以 Sharpe²提升幅度来评价该切分的好坏。

Step3：每轮中，通过遍历测试，得到多组切分结果以及对应的 Sharpe²结果。模型选择 Sharpe²提升最大的那一个切分写入树结构，用原叶节点替换为左右子节点，同时更新当前的最优 Sharpe²；当所有叶节点都不再存在能带来显著 Sharpe² 改善的切分，或进一步分裂会导致叶子样本过少、树深度过大时，生长过程自动停止，得到一棵结构适中、以 Sharpe²最大化为目标训练出来的面板树结构。

最终，我们的数据起始日期为 2009 年。为了能够以足够的数据进行训练和预测，我们以 2014 年底作为首次训练的训练集截止日期，首次预测数据集为 2015 年全年，数据频度为周度。因此，我们最终的面板树样本外可得时间范围为 2015 年至 2025 年。在每年训练中，我们能够得到共计三类数据：训练得到的叶子节点以及对应权重、样本内外每期每只股票所属叶子标签以及个股权重数据。我们以某一年数据构建的面板树结构作为样例展示。从分裂的结果上看，各个分裂点和传统认知存在一定的共通性：如非线性市值、特质性波动性和流动性等在 A 股市场相对显著的特征出现的次数较多，抑或者出现的层级较高。但整体由于其非线性的特质，我们难以直接通过图中结构看出分裂规律。

综上，我们可以看出与传统的决策树不同，面板树存在以下两点核心差异：

1、从“局部统计”到“全局经济”的分裂逻辑：传统决策树的分裂是“短视”的。例如在回归问题中，它会选择一个特征和切分点，使得分裂后两个子节点的方差之和最小。这个过程只关心当前节点的拟合改善。面板树的分裂则相对具备 “远报”的。以资产定价为例，它的每一次分裂都是在解决如何将所有股票分成两个群体，才能使由这两个群体收益率之差构成的因子投资组合的夏普比率最高？这个目标函数贯穿整个树的生长过程，确保了最终模型直接服务于一个核心经济目标。 2、从“忽略结构”到“嵌入结构”的数据处理：传统决策树无视面板数据中个体的异质性和时间序列相关性，通常将不同时期的同一公司视为独立样本，无法有效捕捉个体效应与特征变量随时间的复杂交互。面板树在模型设计上内嵌了面板结构：它假设最终的树结构是时不变的，但允许叶节点的预测值随时间变化。这既保证了模型的稳定性，又容纳了时间维度信息，能有效识别“在何种宏观状态下，哪些公司特征会变得重要”。 3、叶子结点本质为内部同质、相互异质的风格代表：以最大化夏普比率为目标，意味着模型在构造分组时会自动寻求对风险的对冲。例如，它可能将“高价值但高波动”的股票与“低价值但低波动”的股票分离，使最终的多空组合剥离了单纯的风格暴露。从面板树的角度上看，市场中存在着基于 Barra 风格因子，但非线性组合的因子溢价。模型通过分裂，将每期每只股票根据其特征区分为内部同质、相互异质的簇，并对这些簇构建多空组合。若这一多空组合能够剥离市场上绝大多数风险，则说明这些股票分组之间的风格存在差异化，具备一定的代表性。

（三）基础面板树有效性检验与分组结果特征统计

在上文中，我们已经基于 Barra 风格因子和基础面板树设置了滚动训练。具体来说，我们在每年年底基于延展窗口进行面板树的训练，并使用未来一年的数据进行基于面板树的组合权重预测。因此，我们以 2015 年以来的测试集组合净值作为衡量标准，以查看面板树构建的组合是否具备较高的组合夏普比率。从测试结果上看，基于 Barra 风格因子构建的面板树在测试集上的表现优秀，其整体净值的夏普比率较高，收益风险比全时段内为 1.52，且每年度均相对稳定。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）