2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 来源:东北证券
- 发布时间:2026/01/15
- 浏览次数:76
- 举报
机器学习系列之一:mHC对Barra机器学习因子的改进.pdf
机器学习系列之一:mHC对Barra机器学习因子的改进。本报告提出并验证了将流形约束超连接(mHC:Manifold‑ConstrainedHyper‑Connections)结构引入基于Barra因子体系的机器学习因子构建流程的可行性与效果。针对金融数据的低信噪比、非平稳性与极端尾部行为,我们从模型拓扑与几何约束两方面入手:在传统MLP的基础上引入多流残差通道、扇入/扇出门控映射以及对残差混合矩阵的双随机流形投影(通过Sinkhorn‑Knopp实现),以限制层间变换的谱范数并将映射约束在输入凸包附近,从而实现数值稳定性与抗外推能力的提升。实验使用2014–2025年A股全市场截...
引言
在过去的十多年里,量化研究从以线性多因子框架为主,逐步向深度学习方法探索 非线性交互与复杂结构关系演进。这一转变的核心动因是希望突破传统线性模型在 捕捉高阶因子交互与微观结构异质性上的限制。然而,金融市场的若干固有特性对 深度模型提出了严苛挑战,主要集中在极低的信噪比、显著的非平稳性、以及复杂 的市场微观结构噪声上。 首先,金融市场的信号强度普遍偏弱。与图像或语音数据中清晰且重复出现的模式 不同,因子与个股收益之间的统计关联通常很微弱且时变。一个在过去周期内统计 显著的因子,往往会因为宏观政策、资金结构或流动性事件而迅速失效。这种“短寿 命信号”使得模型在训练阶段极易将偶发的样本内噪声误识为稳定规律。 其次,数据的非平稳性和偏态分布加剧了建模难度。收益序列存在厚尾分布、跳跃 与异方差特征,截面因子的分布会随时间或者事件发生结构性变化,标准的独立同 分布假设被严重违背。常规的深度学习训练技巧(例如 batch normalization、大批量 训练)在金融截面问题上不再可靠,因为它们隐含的数据同质性假设与金融数据的 真实特征冲突,导致训练指标与实盘表现脱节。第三,样本量与标签噪声问题亦不可忽视。尽管截面样本在任一时点看似丰富(数 千只股票),但有效样本的横向可比性受行业结构、退市与停牌等因素限制;时间维 的可用标签远少于标准监督学习任务,标签本身受到成交价、分红、复权与延迟信 息等噪声污染。再者,常见的数据泄露、幸存者偏差以及未经恰当分离的滚动窗口 验证,都容易让模型在回测阶段表现过于乐观。
这些因素合力放大了“高容量模型”的风险:当网络的深度与宽度增长时,参数空间 迅速膨胀,模型具备记忆训练噪声的能力,从而出现过拟合与对偶然性模式的过度 放大。具体表现包括: 参数放大导致的数值不稳定:未经约束的线性变换矩阵在多层复合后,其奇异值可 能呈指数级放大或缩小,造成信号在传播过程中的爆炸或消失,进而干扰梯度更新 与训练收敛。 假性相关性的学习:模型可能学到仅在训练窗口存在的交互项或极端样本的“捷径特 征”,这些特征在未来周期不可复现,造成显著样本外性能下降。 高换手率与脆弱的交易信号:深度模型倾向于对微小输入扰动产生敏感输出,导致 策略换手增加、交易成本攀升,从而侵蚀净收益并放大回撤风险。 传统的交叉验证方案在金融时序任务中需要严格的时间顺序保留、purging 与 embargo 机制,否则会误导参数选择与超参调优。简单地把机器学习社区常用的 Kfold CV 直接套用到时间序列与截面数据上,常常导致未来信息泄露,从而无法反 映真正的样本外稳健性。 在此背景下,单纯依赖模型容量扩展(加深网络、增加宽度)并不足以带来长期稳 健的 Alpha。需要从模型结构与先验约束层面引入更强的归纳偏置以对抗噪声与不 确定性。例如: 引入数值稳定性的约束(如限制线性变换的谱范数、使用双随机或正交矩阵投影) 以抑制传播中的信号放大;
通过非负性、凸组合等结构性限制,使得特征变换更偏向于内插而非外推,从而降 低对异常样本的过度反应; 在训练与评估流程中采用金融专用验证策略(滚动回测、时间序列交叉验证、 purging/embargo)与稳健性指标(IC、IC_IR、换手率分布、回撤分布)来衡量模型 的长期可用性。 深度学习模型因子挖掘的核心矛盾在于:我们希望模型拥有足够的非线性表达能力 以捕捉复杂交互,但同时又要保证对噪声与分布漂移的抵抗力。传统的深度学习范 式往往倾向于通过增加参数量(宽度与深度)来提升拟合能力,但在金融这种极低 信噪比的数据环境下,这种“暴力美学”往往适得其反。过大的假设空间使得模型极 易记住训练集中的随机噪声,导致样本外预测崩塌。 而 DeepSeek 团队提出的 mHC 从流形几何角度对深度网络内部的连接结构进行约 束,为金融低信噪比场景下的稳定建模提供了系统性解法。本报告围绕 mHC 的若 干核心贡献与工程可行性,突出其在理论、数值稳定性与实际量化分析建模上的“闪 光点”。

mHC 通过将残差混合矩阵投影到 Birkhoff 多面体(双随机矩阵集合),确保映射为 非负且行列和为一的变换。这一约束带来两个直接收益:一是谱范数受限,从而实 现“非扩张”传播,避免信号在深层网络中被指数级放大;二是变换可解释为输入通 道的凸组合,使得输出保持在输入凸包内,天然抑制过度外推行为。 由于双随机约束和非负的扇入/扇出映射,模型在遇到噪声或极端样本时更倾向于做 平滑内插而非激进加权,这直接带来更低的策略换手率、更稳健的截面排序(IC 的 波动更小)及更小的极端回撤风险。这些都是量化策略在实盘中衡量长期有效性的 关键指标。
mHC 的核心算子(如 Sinkhorn-Knopp 投影、Sigmoid 映射与门控因子)均可以构 造成可微模块,支持端到端反向传播。报告中给出具体的初始化与冷启动策略,以 确保训练早期的梯度流和数值稳定性,降低训练失败的工程风险。 与完全无约束的宽网络不同,mHC 引入的是一种“有界的表达空间”——在允许高 维交互的同时,通过流形约束限制可能的线性混合形式,从而保留模型挖掘复杂交 互的能力,又避免了无序参数扩张带来的噪声放大。这种折中在低信噪比场景下尤 其重要。 本报告主要介绍 mHC 的研究应用到 barra 的机器学习因子的改进中,barra 的机器 学习因子在 2025 年 3 月份 MSCI 发布的 CNEX 模型中上线多层感知机(MLP)这因 子。在此之前,MSCI 的股票研究团队已经在因子研究中率先引入了基于机器学习, 并取得了显著的成果。
mHC 的理论框架:从双随机矩阵到深度网络
本章将介绍 mHC 的在大语言模型训练中的理论框架,本章节重点关注 SinkhornKnopp 算法的实现细节及其在梯度传播中的几何意义。
2.1. 超连接(Hyper-Connections)的拓扑结构
DeepSeek 的 mHC 架构是对传统残差网络(ResNet)的一次拓扑重构。在标准 ResNet 中,残差流通常是单通道的,维度与计算层一致。而 mHC 将这一单通道扩 展为 n 个并行的“子流(” Sub-streams),形成了一个宽度为 n × C 的信息高速公路。 单层的信号传播逻辑可以描述为:上一层的 n 个子流状态 X_l,首先经过一个混合 矩阵 H_res 进行流与流之间的信息交换(线性混合);同时,这些子流通过“扇入映 射” H_pre 被压缩聚合,输入到非线性计算单元(如 MLP)中进行特征提取;提取 后的新特征再通过“扇出映射” H_post 广播回 n 个子流中,与线性混合后的状态叠 加,形成下一层的状态 X_{l+1}。 这种设计的核心在于“分工与交互”: 1. 并行通道:多个子流允许网络在不同通道中维护独立的特征表示,避免了单一 通道中的信息挤压与干扰。 2. 动态路由:通过可学习的混合矩阵,网络可以动态地决定信息在不同子流间的 分配与流转,实现了比固定连接更灵活的路由机制。
2.2. 流形约束与非负映射
为了在深层网络中保持信号传播的稳定性,mHC 引入了两组关键的几何约束,分 别作用于层间的混合矩阵与扇入/扇出映射。
1. 残差混合矩阵的流形约束(Sinkhorn-Knopp)
在无约束的深层网络中,信号经过多次线性变换后容易出现数值爆炸或梯度消失。 mHC 将残差混合矩阵 H_res 严格约束在 Birkhoff 多面体 上,即要求该矩阵必须 是双随机矩阵(Doubly Stochastic Matrix)。这意味着混合矩阵必须满足三个条件:所有元素非负、每一行的和为 1、每一列的 和为 1。 物理含义:这相当于要求层间的信息传递必须遵循“能量守恒”和“概率转移”的原则。 信号既不会凭空放大(非扩张性),也不会在传递中丢失,只能在不同子流间进行重 新分配。 算法实现:在训练过程中,通过 Sinkhorn-Knopp 算法 对参数矩阵进行迭代式的 行归一化和列归一化,使其快速收敛到双随机流形上。这种约束天然地限制了矩阵 的谱范数(<= 1),为构建超深层网络提供了坚实的数值稳定性保障。
2. 扇入/扇出映射的非负约束
为了防止信息在聚合(扇入)和广播(扇出)过程中因正负抵消而丢失,mHC 要求 扇入映射 H_pre 和扇出映射 H_post 的参数必须保持非负。 逻辑解释:非负性确保了特征的聚合是基于“加权累加”而非“差分抵消”。这使得输 出特征始终位于输入特征的凸包或锥内,避免了特征空间的剧烈震荡。 实现细节:通常使用 Sigmoid 函数将参数映射到 (0, 1) 区间。特别地,对于扇出映 射,DeepSeek 建议引入一个缩放系数(如 2),以补偿 Sigmoid 函数带来的均值偏 移,确保初始化阶段的梯度流尺度适宜,利于模型的冷启动训练。
2.3. 参数初始化与冷启动策略
在金融模型的训练初期,保持梯度的流动性至关重要。如果初始化不当,深层 mHC 网络可能在初始阶段就陷入梯度消失。 DeepSeek 论文建议引入门控因子 ? 并进行极小值初始化。 参数设定: 扩展率: ? = 4。这意味着对于 42 维的输入,内部残差流将维护 4 × 42 = 168 维 的状态空间。
Barra 模型机器学习因子
本章将详细阐述基于 Barra 因子体系构建机器学习因子的完整流程,该因子在 2025 年 3 月份 MSCI 发布的 CNEX 模型中上线。在此之前,MSCI 的股票研究团队已经 之前的系列研究中率先引入了基于机器学习模型来构建的因子,取得了显著的成果。 Barra MLP 因子的核心思想在于突破传统线性多因子模型的假设桎梏,利用神经网 络强大的通用函数拟合能力,去深度挖掘 Barra 风格因子与个股未来残差收益之间 那些微妙、非线性且高度交互的复杂映射关系。 在经典的 Barra 风险模型框架下,因子收益通常通过横截面回归(Cross-Sectional Regression)进行估算。这种方法虽然解释性强,但隐含了一个强假设:即因子暴露与预期收益之间存在严格的线性关系,且各个因子之间是相互独立的。然而,真实 的金融市场是一个复杂的自适应系统,充满了非线性特征和条件依赖。 例如,“估值因子”的有效性往往是非线性的——极度低估的股票可能不仅不回归, 反而面临“价值陷阱”的风险;同时,因子之间存在显著的交互效应,如“动量因子” (Momentall Cap)股票中的表现者在流动性(Liquidity)枯竭时会发生剧烈的反转。 传统的线性经验人工构造大量的交叉项(Interaction Terms)来试图捕捉这些规律, 这不仅耗时耗力,容易组合。 相比之下,多层感知机(MLP)作为一种通用的函数逼近器,通过堆叠多层非线性 激活函数(如 ReLU),能够自动地在特征空间中进行高维扭曲和特征重组。它不再 将每个 Barra 因子视为独立的线性贡献者,而是将包含 10 大类风格因子的向量视 为一个整体的市场状态“指纹”。模型能够“端到端”地学习出这些因子在不同市场环 境下的非线性组合规则,从而捕捉到线性模型无法触及的高阶 Alpha 信息。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 克莱尔:一种用于韧性估计的因果机器学习方法(英译中).pdf
- 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf
- 基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一.pdf
- 科技制造行业产业月报(26年2月):灵巧之手,如何成形?——解析人形机器人灵巧手产业链.pdf
- 摩根士丹利-全球科技行业:人形机器人技术——把握未来.pdf
- 电子皮肤行业深度报告:实现机器柔性触觉,感知世界触手可及.pdf
- 大鹏工业研究报告:工业精密清洗装备小巨人企业,加速布局机器视觉检测产品.pdf
- 大鹏工业研究报告:工业清洗隐形冠军,机器视觉打造强劲第二增长曲线.pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 量化投资专题研究报告:机器学习合成非线性因子,增强效果如何?
- 2 清华大学-人工智能之机器学习.pdf
- 3 机器学习和知识图谱在行业轮动中的应用.pdf
- 4 亚马逊云科技7个典型的机器学习案例
- 5 兰德-在中美竞争中保持人工智能和机器学习的竞争优势.pdf
- 6 世界经济论坛-负责任地使用技术:Microsoft案例研究(英文)
- 7 机器学习资产配置:HMM模型择时及配置策略.pdf
- 8 德邦金工文献精译第一期:机器学习因子,在线性因子模型中捕获非线性.pdf
- 9 人人懂AI之从机器学习到大模型.pdf
- 10 IDC白皮书:加快机器学习开发步伐,加速构建智能应用程序.pdf
- 1 2025年人工智能与机器学习在医疗科技领域的崛起研究报告(英文版).pdf
- 2 人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略.pdf
- 3 基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一.pdf
- 4 金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子.pdf
- 5 机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案.pdf
- 6 机器学习系列之一:mHC对Barra机器学习因子的改进.pdf
- 7 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 8 机器学习应用系列:强化学习驱动下的解耦时序对比选股模型.pdf
- 9 克莱尔:一种用于韧性估计的因果机器学习方法(英译中).pdf
- 10 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架
- 2 2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 5 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 6 2025年基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一
- 7 2025年金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子
- 8 2025年机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案
- 9 2025年人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略
- 10 2024年量化策略研究:DFQ机器学习行业轮动模型
- 1 2026年机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架
- 2 2026年基于风格因子的非线性分域训练研究—机器学习系列九
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2026年机器学习系列之一:mHC对Barra机器学习因子的改进
- 5 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 6 2025年基于可微RankIC损失函数的深度学习选股策略——机器学习选股系列研究之一
- 7 2025年金工机器学习系列专题报告:多模式合成的GRU深度学习选股因子
- 8 2025年机器学习应用系列专题报告:DAFAT,基于Transformer模型的自适应解决方案
- 9 2025年人工智能和机器学习系列专题研究:基于动量Transformer模型的日内和隔夜交易策略
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
