2025年金工深度研究:基于level2数据图像的选股模型

  • 来源:华泰证券
  • 发布时间:2026/01/08
  • 浏览次数:108
  • 举报
相关深度报告REPORTS

金工深度研究:基于level2数据图像的选股模型.pdf

金工深度研究:基于level2数据图像的选股模型。人工智能99:利用图像模型分析level2数据如何从海量的level2数据中提取有效的Alpha信号?本文提出一种基于图像识别的全新解决方案。该方法将高频逐笔成交与逐笔委托数据,转换为标准化的三维图像格式。其中,图像的通道数、宽度和高度分别对应订单类型、价格区间以及成交量/委托量区间,每个像素点的值则代表具备相同属性的订单笔数,像素值越高,表明该类订单出现的频率越高。随后,本研究应用强大的视觉模型VisionTransformer(ViT)及视频模型VideoVisionTransformer(ViViT)对生成的图像(及图像序列)进行模式识别...

研究导读

随着人工智能技术的进步,深度学习模型在量化投资领域的应用日益广泛。其中,时序神 经网络和图神经网络是当前研究的热点方向。时序神经网络(如 GRU、Transformer 等) 善于刻画时间序列的动态规律,例如在华泰金工前期研究《基于全频段量价特征的选股模 型》(2023.12.8)中,通过共享参数的 GRU 多任务学习模型,同时捕捉日、周、月 k 线的 时序特征;《基于逐笔成交的深度学习选股模型》(2025.7.14)采用 Transformer 模型分析 逐笔成交数据中的大小单、主动买卖等资金流的日内变化模式。图神经网络(如 GCN、GAT 等)则更侧重于建模股票之间的关联结构,例如在《图神经网络选股的进阶之路》(2022.4.11) 报告中,通过构建残差图注意力网络,将股票收益分解为行业关联、因子关联与特异性收 益三部分,深入挖掘股票间的结构化信息。 相比之下,基于图像识别的深度学习方法在量化投资领域的探索相对有限。Jiang 等人于 2023 年在 The Journal of Finance 发表论文(Re‐) Imag (in) ing price trends,尝试将股票的 日频量价数据转化为“蜡烛图”图像,并利用卷积神经网络(CNN)提取特征以预测未来 收益。我们在复现该研究时发现,其效果不及常见的 GRU 时序模型,这可能是因为从价格 序列到蜡烛图的转换过程中损失了部分关键信息。

近期,微软亚研院的 Li 等人在 2025 年 ICLR 上发表论文 Mars: a financial market simulation engine powered by generative foundation model,提出了一种基于生成式基础模型的金融 市场模拟引擎 MarS。MarS 的核心是一个订单级别的生成式基础模型 LMM(Large Market Model)。LMM 将即时订单簿(Limit Order Book)和订单流(Order Batch)转换为令牌 (Token),并借助大语言模型架构进行训练,以实现订单生成和市场模拟。该框架可应用 于金融市场预测、风险检测、情景分析和强化学习环境等多个场景。 值得注意的是,MarS 在预处理阶段将订单流数据转换为图像格式。具体而言,订单流包含 过去一分钟内的所有订单,每个订单具有类型、价格区间和委托量区间三种属性。这三种 属性分别对应于图像的通道数(3 类订单:买单、卖单、撤单)、宽度(32 个价格区间)和 高度(32 个委托量区间)。每个像素位置表示具有相同属性组合的订单数量,像素值越高, 对应订单数越多。图像构造完成后,进一步通过 VQGAN 将其转换为离散令牌,并输入 LLaMA2 进行训练。

本报告借鉴 MarS 中对订单流的图像化处理思路,将个股单日的逐笔成交与逐笔委托数据转 换为标准化图像,并采用 Vision Transformer(ViT)模型进行训练,以构建收益预测模型。 在此基础上,我们进一步引入过去 20 个交易日的图像序列,利用 Video Vision Transformer (ViViT)模型进行时序建模。实证表明,ViT 与 ViViT 模型均表现出良好的选股能力,其 中 ViViT 模型在换手率控制方面表现更优,而两者等权合成后预测效果得到进一步提升。

数据与方法

本章基于逐笔成交与逐笔委托数据,通过预处理转换成图像格式,并利用深度学习模型训 练选股信号。

逐笔成交数据

逐笔成交数据是股票每笔成交明细的记录,包含成交时间、成交价格、成交量、成交金额、 买方卖方编号、买卖方向标志等交易细节。

逐笔委托数据

逐笔委托数据是股票每笔委托明细的记录,包括委托时间、委托价格、委托量、委托类型、 委托方向、订单编号等重要信息。

需注意的是,上交所和深交所的逐笔委托数据在规则上存在一定差异: (1)上交所的撤单信息记录在逐笔委托数据中,通过“委托类型”字段区分新增订单和撤 回订单;深交所的撤单信息记录在逐笔成交数据中,以成交价格为 0 作为标识。 (2)上交所的委托量为剩余委托量,代表委托报入经即时成交后的剩余数量,有 3 种情形。 若委托报入后立即全部成交,只记录在逐笔成交中,不记录在逐笔委托中;若委托报入后 部分成交,成交部分记录在逐笔成交中,未成交部分记录在逐笔委托中;若委托报入后未 成交,只记录在逐笔委托中,等后续撮合成交后再记录逐笔成交。深交所则直接记录完整 委托量,逻辑更为简明。

图像转换

在数据处理与表征方面,本研究借鉴了微软亚洲研究院 MarS 论文中将订单流转换为图像格 式的方法。该论文中,订单流被定义为过去一分钟内的所有订单记录,每个订单包含订单 类型、价格区间和委托量区间三种属性。具体地,订单类型包括买单、卖单和撤单三类, 类似于 RGB 图像的三个通道;价格被等分为 32 个区间,对应图像的宽度;委托量同样被 划分为 32 个区间,对应图像的高度。图像中每个像素点的位置由价格和委托量的区间组合 确定,而像素值则代表在指定时间窗口内,满足该订单类型、价格区间和委托量区间组合 的订单数量。像素值越高,表明具备该属性组合的订单数量越多。

基于上述思路,并结合本研究的实际预测目标与数据特点,我们对图像的构建方式进行了 调整。首先,为适配低频预测任务,我们将单日内个股的全部逐笔成交与逐笔委托数据聚 合,形成一张代表当日交易信息的综合图像。其次,为更细致地刻画交易行为,本研究在 MarS 论文定义的 3 种基础订单类型基础上,进一步依据主动买卖、大小单、撤单方向等多 个维度进行细分,将通道数扩展为 15 个,从而构建信息更为丰富的特征表示。此外,考虑 到原始论文中 32×32 的图像维度在处理日级别大量数据时可能导致计算和存储成本过高, 本研究将价格与委托量的区间划分数量均压缩至 8,最终构建出维度为 15×8×8的图像数据。 此优化在保留核心结构信息的同时,显著降低了模型训练所需的计算资源。

ViT 模型

模型方面,我们采用基于 Transformer架构的视觉模型。2021 年 Dosovitskiy等人提出 Vision Transformer(ViT),将图像分割为固定大小的图像块,经嵌入与位置编码后,通过 Transformer 编码器捕捉图像块间的注意力关系,最终经全连接层输出预测。本文以个股最 新交易日的 level2 数据图像作为输入,经通道内归一化处理后输入 ViT 模型,提取图像特 征并预测未来 10 日超额收益。

ViViT 模型

为进一步引入时间维度信息,本研究还采用 Video Vision Transformer(ViViT)处理历史图 像序列。2021 年 Arnab 等人提出 ViViT,用于视频数据的建模,其在 ViT 基础上进行了两 方面的扩展: (1)在嵌入阶段,ViViT 需要考虑时间维度的切分,作者提出两种做法。方法一是 Uniform Frame Sampling,按顺序对视频进行逐帧采样,每一帧都采用 ViT 的做法进行图像切分; 方法二是 Tubelet Embedding,直接将视频切分成固定尺寸的三维小立方体。本研究采用方 法二,因为其更有利于捕捉局部时空特征。 (2)在编码器阶段,除了图像上的空间注意力外,ViViT 还需考虑时间注意力,作者提出 四种做法。方法一是 Spatio-Temporal Attention,直接将时空序列展平,再使用 Transformer 编码器学习自注意力,缺点是复杂度呈平方级;方法二是 Factorised Encoder,先通过空间 Transformer 编码器提取空间特征,再经时间 Transformer 编码器融合时序信息,能够有效 降低计算复杂度;方法三是 Factorised Self-Attention,在一个模块中先后学习空间和时间 注意力,再堆叠多个模块;方法四是 Factorised Dot-Product Attention,将时间和空间注意 力的计算放在不同的注意力头中来实现。本研究采用方法二,因为其能够在保证模型性能 的同时显著降低计算复杂度。

模型信号测试

本章对 ViT 和 ViViT 在测试集中的预测信号进行回测分析。为减轻随机性影响,每个模型分 别使用三个随机数种子进行训练,并将三次训练结果等权集成,作为最终的因子信号用于 回测。

因子测试

因子测试方法如下: (1)股票池:全 A 股,剔除 ST 股票,剔除每个截面期下一交易日停牌、涨停的股票。 (2)回测区间:2017/1/1~2025/11/30。 (3)调仓周期:周频,不计交易费用。 (4)测试方法:IC 值分析,因子分 10 层测试。 测试结果显示,ViT 模型和 ViViT 模型各有优势。ViT 模型在预测能力上表现更强,其 RankIC 均值、RankICIR、TOP 组合超额收益及信息比率等指标均较高;ViViT 模型则表现出更低 的 TOP 组合换手率,这主要得益于其输入为过去 20 个交易日的图像序列,信号在时序上 具有较高的自相关性。将 ViT 与 ViViT 模型等权融合后,融合模型在 RankIC 均值、TOP 组合超额收益等关键指标上均有提升,同时换手率较 ViT 模型明显下降。

因子相关性分析

相关性分析表明,ViT 与 ViViT 模型信号间的相关系数为 0.72,说明两者具有信息互补性。 以团队前期研究报告《基于逐笔成交的深度学习选股模型》(2025.7.14)中的 Transformer 模型信号作为时序类模型的代表,ViT、ViViT 及两者融合模型与该时序模型信号的相关性 在 0.6~0.7 之间,进一步表明图像模型所提取的信号与传统时序模型具有明显差异。此外, 深度学习因子整体呈现反转、低流动性、高 beta、低估值等风格暴露,市值暴露相对较弱。

使用基于 level2 数据图像的融合模型信号对时序 Transformer 模型进行回归,并对回归残 差进行回测。结果表明,残差仍具备稳定的选股能力,进一步证明图像模型可捕捉时序模 型无法覆盖的 Alpha 信息。从特征逻辑上看,时序模型主要学习量价数据在时间维度上的 演变规律,而图像模型则更侧重于从价格与成交量/委托量的联合分布及其相关性中提取信 息。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至