2025年金融工程行业分析:“逐鹿”Alpha专题报告,分钟因子模型
- 来源:中信建投证券
- 发布时间:2025/09/09
- 浏览次数:398
- 举报
金融工程行业分析:“逐鹿”Alpha专题报告,分钟因子模型.pdf
金融工程行业分析:“逐鹿”Alpha专题报告,分钟因子模型。本文通过对A股市场日内微观结构的分析,我们成功构建了一个基于分钟因子模型的隔夜交易策略。策略采用集成学习,融合了LightGBM在截面数据上的优势和我们自研的pegformer模型在时间序列上的强大捕捉能力。在2022年至2025年7月的样本外测试中,该策略表现出卓越的盈利能力和稳健性。预测因子IC均值达到0.087,信息比率高达9.136。在千2的交易成本假设下,策略能实现超过64.15%的年化超额收益和3.53的夏普比率。简介本文在分钟频率上构建预测因子,并结合股票的日内交易模式与微观结构特征,利用机器学习...
一、简介
在先前的 Factor Zoo 与 Model Zoo 研究框架中,我们分析了将分钟级数据降频至日线级别进行 Alpha 因子 挖掘,并在此基础上对比了各类机器学习模型的表现。本文将在此基础上进行深化:我们将直接在分钟频率上 构建预测因子,并结合股票的日内交易模式与微观结构特征,利用机器学习算法训练端到端的分钟频预测模型。 通过对 A 股市场日内价格进行分析,其中我们发现“尾盘买入-隔日开盘卖出”的隔夜策略存在显著且持续 的超额收益。为精确捕捉此效应,我们设计了一个分钟频率的机器学习交易模型。 在特征工程阶段,我们整合了 Factor Zoo 分钟频因子与 Alpha158 因子,构成了一个高维的初始特征集。随 后,我们利用树模型的特征重要性对其进行评估筛选,提取最具预测力的核心因子。 在模型架构上,我们采用了一种集成策略。融合了两种互补的模型:一是经典的 LightGBM,我们通过滚 动训练的方式使其动态适应市场变化;二是一个创新的深度学习模型 pegformer,其采用“Patch Embedding + GRU + Transformer”的结构,旨在高效捕捉时间序列的局部与全局依赖关系,并通过增量学习提高训练效率。最终, 我们将两个模型的预测信号进行集成,生成最终的交易决策。 结果表明,在中证 1000 指数成分股为交易标的的测试中,该分钟频隔夜模型取得了显著且稳健的 Alpha 收 益。
二、日内股价形态特征
在构建分钟频因子模型之前,我们必须解决一个核心的优化问题:如何在现实的交易约束下,确定最优的 预测周期与持仓频率。一方面,过于高频的预测与交易虽能捕捉市场的瞬时机会,但由此产生的高昂交易成本 极有可能吞噬策略的 Alpha 收益。另一方面,若持仓周期过长,源自高频数据的短期预测信号则会因快速衰减 而失效,导致模型难以发挥其信息优势。为找到最佳平衡点,我们首先对股价的日内形态进行深入的统计分析, 旨在识别出最具预测价值和交易性价比的时间窗口。 以 A 股市场最具代表性的沪深 300 指数为研究对象,我们选取了其 2016 年至 2022 年间的全部成分股,并 基于分钟频价格数据进行分析。为实现标准化比较,我们将各股票当日的分钟价格均以其开盘价进行归一化处 理。
为了有效提升整体收益,我们必须在择时的基础上叠加选股因子。为此,我们构建一个基于机器学习的 60 分钟频率预测模型。通过个股选择来增强策略的收益,使其具备在真实市场中盈利的能力。

三、因子构建
3.1 Alpha158 因子
Alpha158 与 Alpha360 是 Qlib 中默认的两套因子计算方法: Alpha360 采用枚举法的构建方法,它基于六个基础特征——开盘价、最高价、最低价、收盘价、 成交均价及成交量。对这六个特征进行归一化处理,并分别回溯过去 60 个交易日的数据,从而生 成最终的因子列表。 Alpha158 借鉴了一系列经典的量价因子构建思想,其结构设计更加复杂。该因子集通 过引入一个时间跨度参数 d(短期取值[1-5],中长期取值[5, 10, 20, 30, 60]),从动量、波动率、流 动性等多个维度,深度刻画了股价的短中长期动态特征。
我们此前的研究结果表明,Alpha158 作为机器学习模型的特征输入,其预测效果优于 Alpha360。因此,为 了追求更优的模型性能,我们在此次研究中继续采用 Alpha158 作为基础因子构造方式。
3.2 FactorZoo 因子
在我们的 Factor Zoo 系列研究中,我们曾从振幅、标准差、高阶矩、成交占比、流动性、动量、量价相关 性、极值位置等多个维度构建了数千个因子。在对每类因子的日内规律进行深入分析后,我们最终筛选出了一 批预测效果好且相关性低的有效因子。 需要注意的是,原始 Factor Zoo 在构建的最后一步是将因子降频为日频数据,其筛选标准也着眼于对 5 日 收益率的预测效果。但得益于我们底层架构的灵活性,绝大多数因子(部分统计类因子除外)只需移除其最后 的降频步骤,便可以还原为它们最原始的分钟频序列,从而直接应用于我们的分钟频模型中。

最终筛选保留的因子为:Max($high, 240) / Min($low, 240)-1、Mad($high, 240) / $close、UpStd($close / Ref($close, 4)-1, 240)、Kurt($close / Ref($close, 4)-1, 240)、Corr(Ref($high, 1), $volume, 237)、Peak($close, 240)、 Min($close/Ref($close,7)-1,240)。
3.3 因子筛选
由于 Alpha158 因子数量较多,若将其与 Factor Zoo 因子全部作为模型输入,将导致过高的内存占用和缓慢 的训练速度,这一计算效率问题在训练时序深度学习模型时尤为严峻。为此,我们首先进行因子筛选。 我们采用基于树模型的特征重要性来进行筛选。具体而言,我们在训练集上构建完整的 Alpha158 与 Factor Zoo 分钟频因子集,然后使用 LightGBM 模型进行训练,预测目标为未来 60 分钟的收益率。根据模型输出的特 征重要性排序,我们筛选出排名前 20 的因子作为下一阶段模型的最终输入。 下表展示了经过特征重要性筛选后的最终因子排名。从表中可以清晰地看出,Factor Zoo 系列因子占据了重 要性排名的前列,其表现整体上优于 Alpha158 中的因子。一个非常有趣的现象是,尽管我们最初构建 Factor Zoo 因子库的目标是预测周线级别的收益,但这些因子在剔出降频算子后,在分钟频率的模型中依然展现出了强大 的预测力,这充分说明了它们在不同时间尺度上的普适性和有效性。
四、模型
为了充分利用数据特性,在模型架构上,我们采用了一种集成策略。融合了两种互补的模型:一是经典的 LightGBM,通过滚动训练的方式使其动态适应市场变化;二是一个创新的深度学习模型 pegformer,其采用“Patch Embedding + GRU + Transformer”的结构,旨在高效捕捉时间序列的局部与全局依赖关系,并通过增量学习提 高训练效率。最终,我们将两个模型的预测信号进行集成,生成最终的交易决策。 对于模型的训练数据,我们采用上文筛选出的 20 个分钟频率因子作为输入特征,预测目标设定为未来 60 分钟的收益率。我们的数据集划分如下:初始训练集覆盖 2016 年至 2020 年,验证集为 2021 年全年。在初始训 练之后,模型将通过滚动训练或在线学习的机制持续更新,以生成动态的预测结果。 至于股票池的选择,为了平衡波动性和流动性,我们以中证 1000 指数的成分股作为本次研究的标的。
4.1 整体框架:集成学习
金融市场数据同时具备两种显著特性: 截面特征:在同一时刻,不同股票的因子表现存在差异,这些因子间的非线性关系和交互作用是预测未来 收益的关键。 时序特征:单一股票的历史数据序列中,蕴含着动量、反转、波动率聚集等重要的动态模式。 传统的机器学习模型(如树模型)擅长处理截面特征,但难以捕捉长程的时间依赖性;而像 RNN,Transformer 等深度学习模型则精于时序分析,但可能忽略因子间的复杂交互。因此,我们的集成框架旨在结合两者的长处, 通过融合它们的预测信号,生成一个更全面、更鲁棒的最终决策。
4.2 LightGBM
LightGBM 是一款高效的梯度提升决策树(GDBT)框架,是处理表格化数据的经典模型之一。它以训练速 度快、内存占用低和预测精度高而著称,非常适合处理大规模的因子数据。在我们的框架中,LightGBM 主要 负责深度挖掘因子在截面上的非线性关系。它能有效识别在特定市场环境下,哪些因子组合对股票的短期收益 最具预测力。 为了让模型能够动态适应市场风格切换,我们采用滚动训练的方式,初始训练集为 2016-2020 年,验证集 为 2021 年,滚动间隔为 1 年。为避免过拟合,模型超参采用 QLIB LightGBM 模型的默认超参,不做任何调整。
4.3 pegformer
为了有效捕捉金融时间序列中复杂的动态依赖关系,我们设计了 pegformer 的新型深度学习架构。该模型 的核心结构为 Patch Embedding + GRU + Transformer。

4.3.1 pegformer 模型结构
pegformer 模型结构如上图所示,核心框架主要由三部分组成: 1. Patch Embedding: 传统的时序模型通常逐个时间步(例如,逐分钟)处理数据,这在处理高频长 序列时计算成本极高。借鉴计算机视觉领域的 Vision Transformer(ViT)思想,我们将输入的长时 序数据切分为若干个连续且不重叠的“片段(Patches)”。每个片段(例如,10 分钟的数据)通过 一个共享的嵌入层被映射成一个高维向量。此举不仅大幅缩短了输入序列的长度,降低了后续模块 的计算复杂度,还能让模型在初始阶段就捕捉到如“10 分钟内 V 型反转”之类的局部形态特征。 2. 第二层引入了 Transformer 的编码器模块。其核心的自注意力机制(Self-Attention)能够评估序列 中所有片段之间的相互重要性,无论它们相距多远。这使得 pegformer 能够捕捉到全局范围内的长 程依赖关系。例如,模型可以发现今天开盘第一个小时的某个模式,与下午收盘前的走势存在着关 键的、非线性的关联。这是传统 RNN 难以企及的。 3. GRU 通过其循环结构,能够有效捕捉数据片段之间的有序演化关系,从而将时间上的前后依赖信 息隐式地编码到其输出中。这种对时序性的聚焦,与 Transformer 的全局视角形成了完美的互补。 pegformer 专注于从股票的历史序列中提取深层的时间模式,包括传统模型难以捕捉的局部形态和全局长程 依赖。
4.3.2 pegformer 模型设置
模型的输入数据结构为三维格式 (b, t, f),其中 b 是批处理大小,t 是时间序列长度,我们设定为 240(即 每个预测点都基于过去 240 分钟的信息),f 是特征数量,即筛选后的 20 个因子。 在正式训练之前,我们首先采用小样本对模型超参进行快速优化,优化框架使用 optuna, 优化参数包括: patch 长度,patch 滚动间隔,transformer 层数,特征长度,多头数目等。
4.3.3 增量学习
与截面模型相比,时序深度学习模型对计算资源的需求更高。因此,为了平衡预测效果与训练效率,我们 采用了一种基于增量学习的滚动更新策略。增量学习的核心是让模型能从新数据中持续学习,而非完全重头训 练,从而在动态变化的环境中保持知识的连贯性。 具体来说,我们首先在初始训练集上训练一个耗时较长的基础模型。之后,每年使用新增的全年数据对模 型进行一次全量微调,生成用于未来预测的新模型。 在微调技术上,我们选择全量微调(更新所有参数),因为经过测试对比,其效果优于只更新部分参数的 局部微调。这主要归功于每次滚动训练时充足的年度样本量,足以确保全量参数能够收敛到新的最优状态。为 防止模型在微调时出现灾难性遗忘,我们将学习率设置为初始学习率的十分之一,以保证新旧知识的平稳融合。
五、结果
5.1 因子分析
我们将 LightGBM 与 pegformer 的预测结果进行等权相加,以得到最终的综合预测信号。该信号包含了每分 钟对未来一小时收益的预测,但如此高频率的交易在实操中难以实现。 需要注意的一点是,如我们在第二章的分析中所指出的,最优的交易模式应为“14:45 买入,次日 10:46 卖 出”。考虑到实际交易中,模型计算与下单执行均需要时间,为了增加操作的容错空间,我们最终采用 14:40 时刻生成的预测信号来指导当日的交易,确保交易的可执行性。 最终合成的因子在样本外(2022-2025.7)IC 均值为 0.087,IR 为 9.136。
5.2 策略回测
通过 14 点 40 预测得到的信号,我们构建隔夜交易策略,策略具体设置为:
策略的最终回测净值曲线如下图所示。从图中可以观察到,策略整体表现非常突出,夏普达到了 3.5,实现 了持续稳健的收益增长。尤其值得注意的是,在市场环境迥异的 2022 年和 2024 年,该策略均取得了显著的超 额收益。
鉴于本策略的日度调仓模式,其年化换手率高达 250 倍,这表明策略的最终表现对交易成本高度敏感。为 了评估其在更严苛交易环境下的稳健性,我们进行了一次压力测试,将交易手续费标准由双边千分之二上调至 千分之三。即便如此,策略的年化收益率仍能达到 23.84%,夏普比率为 1.42。将手续费上调至千四,策略依然 能跑赢基准,这表明该策略其盈利能力足以承受较高的交易摩擦。
六、结论
本文通过对 A 股市场日内微观结构的分析,我们成功构建了一个基于分钟因子模型的隔夜交易策略。策略 采用集成学习,融合了 LightGBM 在截面数据上的优势和我们自研的 pegformer 模型在时间序列上的强大捕捉能 力。在 2022 年至 2025 年 7 月的样本外测试中,该策略表现出卓越的盈利能力和稳健性。预测因子 IC 均值达到 0.087,信息比率高达 9.136。在千 2 的交易成本假设下,策略能实现超过 64.15%的年化超额收益和 3.53 的夏普 比率,即使在较高的交易成本压力测试下,依然能取得显著的超额收益。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行.pdf
- 中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期.pdf
- 中国特色衍生品交易账户体系建设探索-金融市场研究.pdf
- 基于行为金融视角的A股市场月频动量效应失效原因与修正策略-金融市场研究.pdf
- 中国金融机构人才发展与培训白皮书(2026年).pdf
- 金融工程:基金窗口粉饰行为的定量识别与FOF投资应用.pdf
- 金融工程:高波动环境下如何捕捉热点板块的投资机会?.pdf
- A股量化择时研究报告:金融工程,AI识图关注船舶、电网、钢铁、机器人.pdf
- 金融工程,大类资产及权益风格月报(2026年2月):权益资金流边际改善,小盘成长风格有望占优.pdf
- 金融工程指数量化系列:高值偏离修复模型(突破型双位点).pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 北京大学数字普惠金融指数(2011-2021).pdf
- 2 2020中国金融科技创新大赛优秀案例集.pdf
- 3 区块链与数字货币深度解析:科技如何重塑金融(103页).pdf
- 4 中国银行中国经济金融展望报告(2022年第3季度):“三重压力”倍增,政策全力稳定宏观经济大盘.pdf
- 5 中国工商银行金融科技研究院:商业银行生物识别技术应用实践及趋势分析.pdf
- 6 2020年全球金融科技指数报告.pdf
- 7 供应链金融创新发展报告2019.pdf
- 8 详解微众银行,见证金融科技的力量.pdf
- 9 2019开放银行与金融科技发展研究报告.pdf
- 10 金融集团大数据分析平台总体架构方案.pptx
- 1 金融壹账通:2024年环境、社会及管治报告.pdf
- 2 2025年中国金融科技(FinTech)行业发展洞察报告.pdf
- 3 阿里云:2025年金融行业Agent百景图.pdf
- 4 RWA行业研究报告:真实资产走向链上世界,开启数字金融新时代.pdf
- 5 区域经济与银行股系列专题报告:山东省三项动能支撑,基建+产业升级+新兴,金融需求持续性强.pdf
- 6 金融工程专题报告:使用投资雷达把握行业轮动机会.pdf
- 7 蚂蚁数科:2025金融智能体深度应用报告.pdf
- 8 RWA行业分析:为实体资产开启数字金融世界之门.pdf
- 9 稳定币行业专题报告:重塑全球金融秩序的变量.pdf
- 10 多元金融行业分析报告:稳定币如何影响和变革传统金融?.pdf
- 1 科技新周期系列1:穿越泡沫,从技术革命到金融资本.pdf
- 2 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 3 A股量化择时研究报告:金融工程,AI识图关注中药、银行和红利.pdf
- 4 非银金融行业深度报告:海南全岛封关运作,跨境资管空间广阔.pdf
- 5 中国金融智能体发展研究与厂商评估报告 (2025).pdf
- 6 金融行业:金融业监管2025年度数据处罚分析及洞察建议.pdf
- 7 金融产品深度报告:广发中证传媒ETF(512980.SH),政策规范护航,AI产能兑现,低估值传媒ETF走向高质量增长.pdf
- 8 金融行业周报(20251214):公募销售新规落地,政银绑定深化下银行扩表动能有望复苏.pdf
- 9 5G环境下供应链金融解决方案.pdf
- 10 非银行金融行业研究:数字人民币专题,应用场景空间广阔,2.0时代将加速发展.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 1 2026年综合金融行业金融和理财市场2月报:含权理财收益崛起,宽基ETF规模下行
- 2 2026年中国平安首次覆盖报告:AI+综合金融生态,有望开启成长新周期
- 3 2026年金融工程:基金窗口粉饰行为的定量识别与FOF投资应用
- 4 2026年量化看市场系列之六:OpenClaw金融行业必备Skills推荐与实战应用
- 5 2026年非银行金融行业深度研究:资本市场范式转移,险资放量、券商扩表、公募重塑
- 6 2026年非银金融行业机构行为更新专题:验证“存款搬家”,居民财富的视角
- 7 2026年第10周高频和行为金融学选股因子跟踪周报:石油石化行业拥挤度较高,高频技术指标类因子表现较好
- 8 2026年政策性金融工具,能撬多少倍?——“财政的底色”系列报告(四)
- 9 2026年金融产品每周见:金融地产行业基金,从投资能力分析到基金经理画像
- 10 2026年非银金融行业春季投资策略:存款迁移,非银负债和资产两端受益
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
