2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 来源:兴业证券
- 发布时间:2026/01/28
- 浏览次数:69
- 举报
基于风格因子的非线性分域训练研究—机器学习系列九.pdf
基于风格因子的非线性分域训练研究—机器学习系列九。兴证金工团队自2020年起便积极探索机器学习在量化领域的应用,以树模型为代表的宽基增强策略(沪深300指增等)表现优秀。目前,相关研究主要聚焦于两大方向:一是对现有成熟模型进行持续优化,二是推进新兴模型的实战化验证。本文以集成树模型为基础框架,在既有对抗训练模型之上,进一步引入分域训练思想,旨在提升模型的综合表现。基于风格因子的基础面板树分域:与传统以收益率预测为目标的决策树不同,面板树模型以最大化节点组合夏普比率为目标,在构建分组时自动实现风险对冲。本研究以风格因子作为特征,通过滚动训练方式动态对样本内外的股票进行分域。结果表明,...
引言
近年来,凭借卓越的数据建模能力,机器学习与深度学习模型在量化金融领域的 地位日益重要,相关研究成果不断涌现。当前,学术界在该领域的研究可大致划 分为两个主要方向:成熟算法的优化与新兴算法的探索。一方面,以无监督学习 分类模型、树模型及卷积神经网络为代表的经典机器学习算法已在各类量化投资 细分领域积累了丰富的研究基础,近期的创新性工作主要集中于算法性能与有效 性上的改进与应用拓展。另一方面,以循环神经网络、大模型及强化学习为代表 的新兴算法则侧重于算法层面的创新性研究,众多新兴研究在深度学习框架基础 上,结合股票市场特性进行模型架构或训练方法的创新。 兴证金工团队自 2020 年起便积极探索机器学习在量化领域的应用,并针对传统 算法进行了大量的实证测试。时至今日,我们将机器学习的研究同样划分为两个 主要方向:对现有成熟模型的优化以及新兴模型的实战化验证。在成熟模型优化 方面,我们着重于提升改进方法的通用性和有效性,期望所提出的方法论能够适 用于多种算法框架,能够让投资者在现有模型上进行低成本改进。而在新兴模型 验证方面,我们强调结合团队既有研究积累,并从实际应用的角度出发,考察前 沿技术模型在 A 股市场的有效性。本文中,我们将以集成树模型作为基础,在此 前报告 的基础上,尝试将分域训练的思想加入模型训练中,以期望进一步提升模型的表 现。
在股票收益率预测中,分域训练是提升模型精准度与稳健性的关键策略。传统的 全样本收益率预测模型通常忽视了一个事实:A 股市场存在显著的风格轮动与结构性差异。例如,科技成长股与金融蓝筹股不仅驱动逻辑不同,其波动特性、对 各类因子的敏感性也迥异。若使用同一模型拟合全市场,类似于试图用一套规则 解释所有现象,模型参数实则为各子域特征的“模糊折中”,其预测往往停留在市 场平均水准,难以捕捉细分机会。不同于全域建模,分域建模的核心思想是“分 类处理,精准建模”。它将全市场股票依据行业属性、市值规模、风格标签(如成 长/价值)或波动特征划分为相对同质的子域,再为每个子域独立构建预测模型。 这种做法的优势在于允许模型更聚焦于特定域内最有效的预测因子。同时,分域 建模能更准确地刻画不同域特有的非线性关系与波动模式。最后,分域建模或有 效隔离风险,防止某一域的异常波动或结构性变化通过统一模型参数污染其他域 的预测。
本文中,我们将突破传统的线性分域方法,以风格因子作为基础,通过引入面板 树模型,并进行适度改造以实现对训练集的非线性分域处理,并进一步基于分域 后的样本差异进行精准建模,最终期望其能够提升基准模型的表现。 本文结构安排如下:基于风格因子的非线性股票分域 。 基于风格因子的非线性股票分域:我们首先介绍基础的面板树模型,包含面 板树的初衷以及其和分域建模的相关性。进一步,我们基于风格因子套用面 板树进行基础的动态股票分域; 基于分域的收益率预测模型:基于基础分域后的结果,我们采用滚动训练的 形式进行基于分域样本的收益率预测模型搭建。具体来说,我们通过构建多 头和空头数据集,并针对特征和 Label 采用不同的标准化方式,最后结合分 域预测部分合并得到因子值; 非线性股票分域模型改造与分域训练:针对上文基础分域模型遇到的问题, 我们尝试提出改造方式,通过引入代表域的概念对面板树和分域训练框架进 行改造,并进一步测试改造后因子值的表现; 分域训练模型增强测试:最后,我们在相对严格的约束条件下进行针对沪深 300、中证 500 和中证 1000 指数增强的测试。
基于风格因子的非线性股票分域模型
本节中,我们将首先引入面板树的概念,从模型初衷、原理介绍到适应性改造, 逐步将面板树与风格因子结合,以共同实现针对样本数据的非线性分域。
(一)面板树:以全局夏普比率作为优化目标的树结构
面板树模型(Panel Tree,可简称 P-Tree)是一种用于分析面板数据的机器学习 方法,它结合了决策树的非参数特性与面板数据的结构特点。P-Tree 相对完整的 框架始于 2021 年发表于 SSRN 的论文 Asset Pricing with Panel Tree underGlobal Split Criteria》。P-Tree 的核心创新在于提出了全局分裂准则:即分裂不再 只考虑单个节点,而是以提升整个横截面资产组合的夏普比率等经济指标为目标。 这使得模型生长具有明确的经济学指引,直接服务于构建更好的投资组合或定价 因子。在这篇文章中,作者基于美国市场数据,通过 P-Tree 识别出驱动美股截面 收益的关键特征交互(如长期反转、交易量波动与规模),在定价个股和投资组合 方面,优于大部分已知的显性和隐性因子模型。在 2025 年金融学顶刊 Journal of Financial Economics》上发布的论文 Growing the Efficient Frontier on Panel Trees》,作者在资产定价实证中验证该模型,并进一步深化实证展示有效前沿的 外推。
(二)基于风格因子的基础面板树构建
在本节中,我们将直接介绍以风格因子搭建的非全域面板树,并以此展开对于面 板树模型的介绍。具体来说,面板数的训练和预测大致框架与传统机器学习模型 基本一致。具体如下:
数据准备和预处理
我们同样采用年度重新训练的形式进行滚动训练。在每次训练时,我们选用 2009 年至训练集时间末端的月频数据作为训练集。具体数据维度包含:每月最后一个 交易日所有股票的风格因子值数据,以及对应的未来一期股票收益率作为标签; 每期每只股票(记为单个样本)以 10 个风格因子 Beta、Book-to-Price、Earnings Yield、Growth、Leverage、Liquidity、Momentum、Nonlinear Size、Residual Volatility 和 Size 作为特征数据,记为本次训练的完整面板数据。 在完整面板数据的基础上,我们对预期收益率和特征数据进行常规清洗与预处理: 对预期收益率数据,将个股名义月度收益减去固定的月度无风险利率,之后进行 1%–99%分位截尾,以抑制极端观测的影响;对特征数据,以月份作为横截面, 对因子取值进行线性缩放,将不同量纲的因子映射到可比的 [0,1]区间,缺失因子 值统一使用中位数进行填补。
超参数确定
处理好数据后,我们进一步基于训练集进行超参数确定。对于面板树而言,其本 身涉及的超参数较少,核心超参数包含树的最大深度以及最大分裂轮数(类比于 叶子个数)。我们将其设置为 5 层和 30 轮次。
面板树的生长过程
Step1:在给定的训练期内,模型首先将所有股票–月份样本视为一个整体根节点, 按市值加权得到全集合组合的月度收益,并在叶子空间为 1 的情况下求解最大 Sharpe²组合,记下对应的 Sharpe²作为基准。
Step2:随后进入迭代生长过程。每一轮中,从当前所有叶节点中筛选出仍满足深 度和样本量约束的节点,围绕可用的特征生成一系列特征–阈值候选切分,对每一 个候选切分,按照高于/低于阈值的规则把该节点样本划分为左右两组,分别构造 新的市值加权叶子组合收益;在保持其他叶子不变的前提下,将新旧叶子收益拼 成新的叶子收益矩阵,重新在这一矩阵上做一次均值–方差优化。由于预期协方差 矩阵和预期收益率均采用历史数据进行计算,因此可以直接通过每个叶子的组合 收益率??,推导得出在指定组合收益率矩阵?下的最优权重解,具体公式如下。得 到更新后的最优 Sharpe²,并以 Sharpe²提升幅度来评价该切分的好坏。

Step3:每轮中,通过遍历测试,得到多组切分结果以及对应的 Sharpe²结果。模 型选择 Sharpe²提升最大的那一个切分写入树结构,用原叶节点替换为左右子节 点,同时更新当前的最优 Sharpe²;当所有叶节点都不再存在能带来显著 Sharpe² 改善的切分,或进一步分裂会导致叶子样本过少、树深度过大时,生长过程自动 停止,得到一棵结构适中、以 Sharpe²最大化为目标训练出来的面板树结构。
最终,我们的数据起始日期为 2009 年。为了能够以足够的数据进行训练和预测, 我们以 2014 年底作为首次训练的训练集截止日期,首次预测数据集为 2015 年全 年,数据频度为周度。因此,我们最终的面板树样本外可得时间范围为 2015 年至 2025 年。在每年训练中,我们能够得到共计三类数据:训练得到的叶子节点以及 对应权重、样本内外每期每只股票所属叶子标签以及个股权重数据。 我们以某一年数据构建的面板树结构作为样例展示。从分裂的结果上看,各个分 裂点和传统认知存在一定的共通性:如非线性市值、特质性波动性和流动性等在 A 股市场相对显著的特征出现的次数较多,抑或者出现的层级较高。但整体由于 其非线性的特质,我们难以直接通过图中结构看出分裂规律。

综上,我们可以看出与传统的决策树不同,面板树存在以下两点核心差异:
1、从“局部统计”到“全局经济”的分裂逻辑:传统决策树的分裂是“短视”的。 例如在回归问题中,它会选择一个特征和切分点,使得分裂后两个子节点的方 差之和最小。这个过程只关心当前节点的拟合改善。面板树的分裂则相对具备 “远报”的。以资产定价为例,它的每一次分裂都是在解决如何将所有股票分 成两个群体,才能使由这两个群体收益率之差构成的因子投资组合的夏普比 率最高?这个目标函数贯穿整个树的生长过程,确保了最终模型直接服务于 一个核心经济目标。 2、从“忽略结构”到“嵌入结构”的数据处理:传统决策树无视面板数据中个体 的异质性和时间序列相关性,通常将不同时期的同一公司视为独立样本,无法 有效捕捉个体效应与特征变量随时间的复杂交互。面板树在模型设计上内嵌 了面板结构:它假设最终的树结构是时不变的,但允许叶节点的预测值随时间 变化。这既保证了模型的稳定性,又容纳了时间维度信息,能有效识别“在何 种宏观状态下,哪些公司特征会变得重要”。 3、叶子结点本质为内部同质、相互异质的风格代表:以最大化夏普比率为目标, 意味着模型在构造分组时会自动寻求对风险的对冲。例如,它可能将“高价值 但高波动”的股票与“低价值但低波动”的股票分离,使最终的多空组合剥离 了单纯的风格暴露。从面板树的角度上看,市场中存在着基于 Barra 风格因 子,但非线性组合的因子溢价。模型通过分裂,将每期每只股票根据其特征区 分为内部同质、相互异质的簇,并对这些簇构建多空组合。若这一多空组合能 够剥离市场上绝大多数风险,则说明这些股票分组之间的风格存在差异化,具 备一定的代表性。
(三)基础面板树有效性检验与分组结果特征统计
在上文中,我们已经基于 Barra 风格因子和基础面板树设置了滚动训练。具体来 说,我们在每年年底基于延展窗口进行面板树的训练,并使用未来一年的数据进 行基于面板树的组合权重预测。因此,我们以 2015 年以来的测试集组合净值作 为衡量标准,以查看面板树构建的组合是否具备较高的组合夏普比率。 从测试结果上看,基于 Barra 风格因子构建的面板树在测试集上的表现优秀,其 整体净值的夏普比率较高,收益风险比全时段内为 1.52,且每年度均相对稳定。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 克莱尔:一种用于韧性估计的因果机器学习方法(英译中).pdf
- 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 机器学习系列之一:mHC对Barra机器学习因子的改进.pdf
- 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf
- 科技制造行业产业月报(26年2月):灵巧之手,如何成形?——解析人形机器人灵巧手产业链.pdf
- 基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一.pdf
- 摩根士丹利-全球科技行业:人形机器人技术——把握未来.pdf
- 电子皮肤行业深度报告:实现机器柔性触觉,感知世界触手可及.pdf
- 大鹏工业研究报告:工业精密清洗装备小巨人企业,加速布局机器视觉检测产品.pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 量化投资专题研究报告:机器学习合成非线性因子,增强效果如何?
- 2 清华大学-人工智能之机器学习.pdf
- 3 机器学习和知识图谱在行业轮动中的应用.pdf
- 4 亚马逊云科技7个典型的机器学习案例
- 5 兰德-在中美竞争中保持人工智能和机器学习的竞争优势.pdf
- 6 世界经济论坛-负责任地使用技术:Microsoft案例研究(英文)
- 7 机器学习资产配置:HMM模型择时及配置策略.pdf
- 8 德邦金工文献精译第一期:机器学习因子,在线性因子模型中捕获非线性.pdf
- 9 人人懂AI之从机器学习到大模型.pdf
- 10 IDC白皮书:加快机器学习开发步伐,加速构建智能应用程序.pdf
- 1 2025年人工智能与机器学习在医疗科技领域的崛起研究报告(英文版).pdf
- 2 人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略.pdf
- 3 基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一.pdf
- 4 金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子.pdf
- 5 机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案.pdf
- 6 机器学习系列之一:mHC对Barra机器学习因子的改进.pdf
- 7 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 8 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf
- 9 克莱尔:一种用于韧性估计的因果机器学习方法(英译中).pdf
- 10 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架
- 2 2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 5 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 6 2025年基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一
- 7 2025年金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子
- 8 2025年机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案
- 9 2025年人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略
- 10 2024年量化策略研究:DFQ机器学习行业轮动模型
- 1 2026年机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架
- 2 2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 5 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 6 2025年基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一
- 7 2025年金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子
- 8 2025年机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案
- 9 2025年人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
