2025年金工深度研究：基于level2数据图像的选股模型

来源：华泰证券
发布时间：2026/01/08
浏览次数：108
举报

相关深度报告REPORTS

金工深度研究：基于level2数据图像的选股模型.pdf

金工深度研究：基于level2数据图像的选股模型。人工智能99：利用图像模型分析level2数据如何从海量的level2数据中提取有效的Alpha信号？本文提出一种基于图像识别的全新解决方案。该方法将高频逐笔成交与逐笔委托数据，转换为标准化的三维图像格式。其中，图像的通道数、宽度和高度分别对应订单类型、价格区间以及成交量/委托量区间，每个像素点的值则代表具备相同属性的订单笔数，像素值越高，表明该类订单出现的频率越高。随后，本研究应用强大的视觉模型VisionTransformer（ViT）及视频模型VideoVisionTransformer（ViViT）对生成的图像（及图像序列）进行模式识别...

研究导读

随着人工智能技术的进步，深度学习模型在量化投资领域的应用日益广泛。其中，时序神经网络和图神经网络是当前研究的热点方向。时序神经网络（如 GRU、Transformer 等）善于刻画时间序列的动态规律，例如在华泰金工前期研究《基于全频段量价特征的选股模型》（2023.12.8）中，通过共享参数的 GRU 多任务学习模型，同时捕捉日、周、月 k 线的时序特征；《基于逐笔成交的深度学习选股模型》（2025.7.14）采用 Transformer 模型分析逐笔成交数据中的大小单、主动买卖等资金流的日内变化模式。图神经网络（如 GCN、GAT 等）则更侧重于建模股票之间的关联结构，例如在《图神经网络选股的进阶之路》（2022.4.11）报告中，通过构建残差图注意力网络，将股票收益分解为行业关联、因子关联与特异性收益三部分，深入挖掘股票间的结构化信息。相比之下，基于图像识别的深度学习方法在量化投资领域的探索相对有限。Jiang 等人于 2023 年在 The Journal of Finance 发表论文(Re‐) Imag (in) ing price trends，尝试将股票的日频量价数据转化为“蜡烛图”图像，并利用卷积神经网络（CNN）提取特征以预测未来收益。我们在复现该研究时发现，其效果不及常见的 GRU 时序模型，这可能是因为从价格序列到蜡烛图的转换过程中损失了部分关键信息。

近期，微软亚研院的 Li 等人在 2025 年 ICLR 上发表论文 Mars: a financial market simulation engine powered by generative foundation model，提出了一种基于生成式基础模型的金融市场模拟引擎 MarS。MarS 的核心是一个订单级别的生成式基础模型 LMM（Large Market Model）。LMM 将即时订单簿（Limit Order Book）和订单流（Order Batch）转换为令牌（Token），并借助大语言模型架构进行训练，以实现订单生成和市场模拟。该框架可应用于金融市场预测、风险检测、情景分析和强化学习环境等多个场景。值得注意的是，MarS 在预处理阶段将订单流数据转换为图像格式。具体而言，订单流包含过去一分钟内的所有订单，每个订单具有类型、价格区间和委托量区间三种属性。这三种属性分别对应于图像的通道数（3 类订单：买单、卖单、撤单）、宽度（32 个价格区间）和高度（32 个委托量区间）。每个像素位置表示具有相同属性组合的订单数量，像素值越高，对应订单数越多。图像构造完成后，进一步通过 VQGAN 将其转换为离散令牌，并输入 LLaMA2 进行训练。

本报告借鉴 MarS 中对订单流的图像化处理思路，将个股单日的逐笔成交与逐笔委托数据转换为标准化图像，并采用 Vision Transformer（ViT）模型进行训练，以构建收益预测模型。在此基础上，我们进一步引入过去 20 个交易日的图像序列，利用 Video Vision Transformer （ViViT）模型进行时序建模。实证表明，ViT 与 ViViT 模型均表现出良好的选股能力，其中 ViViT 模型在换手率控制方面表现更优，而两者等权合成后预测效果得到进一步提升。

数据与方法

本章基于逐笔成交与逐笔委托数据，通过预处理转换成图像格式，并利用深度学习模型训练选股信号。

逐笔成交数据

逐笔成交数据是股票每笔成交明细的记录，包含成交时间、成交价格、成交量、成交金额、买方卖方编号、买卖方向标志等交易细节。

逐笔委托数据

逐笔委托数据是股票每笔委托明细的记录，包括委托时间、委托价格、委托量、委托类型、委托方向、订单编号等重要信息。

需注意的是，上交所和深交所的逐笔委托数据在规则上存在一定差异：（1）上交所的撤单信息记录在逐笔委托数据中，通过“委托类型”字段区分新增订单和撤回订单；深交所的撤单信息记录在逐笔成交数据中，以成交价格为 0 作为标识。（2）上交所的委托量为剩余委托量，代表委托报入经即时成交后的剩余数量，有 3 种情形。若委托报入后立即全部成交，只记录在逐笔成交中，不记录在逐笔委托中；若委托报入后部分成交，成交部分记录在逐笔成交中，未成交部分记录在逐笔委托中；若委托报入后未成交，只记录在逐笔委托中，等后续撮合成交后再记录逐笔成交。深交所则直接记录完整委托量，逻辑更为简明。

图像转换

在数据处理与表征方面，本研究借鉴了微软亚洲研究院 MarS 论文中将订单流转换为图像格式的方法。该论文中，订单流被定义为过去一分钟内的所有订单记录，每个订单包含订单类型、价格区间和委托量区间三种属性。具体地，订单类型包括买单、卖单和撤单三类，类似于 RGB 图像的三个通道；价格被等分为 32 个区间，对应图像的宽度；委托量同样被划分为 32 个区间，对应图像的高度。图像中每个像素点的位置由价格和委托量的区间组合确定，而像素值则代表在指定时间窗口内，满足该订单类型、价格区间和委托量区间组合的订单数量。像素值越高，表明具备该属性组合的订单数量越多。

基于上述思路，并结合本研究的实际预测目标与数据特点，我们对图像的构建方式进行了调整。首先，为适配低频预测任务，我们将单日内个股的全部逐笔成交与逐笔委托数据聚合，形成一张代表当日交易信息的综合图像。其次，为更细致地刻画交易行为，本研究在 MarS 论文定义的 3 种基础订单类型基础上，进一步依据主动买卖、大小单、撤单方向等多个维度进行细分，将通道数扩展为 15 个，从而构建信息更为丰富的特征表示。此外，考虑到原始论文中 32×32 的图像维度在处理日级别大量数据时可能导致计算和存储成本过高，本研究将价格与委托量的区间划分数量均压缩至 8，最终构建出维度为 15×8×8的图像数据。此优化在保留核心结构信息的同时，显著降低了模型训练所需的计算资源。

ViT 模型

模型方面，我们采用基于 Transformer架构的视觉模型。2021 年 Dosovitskiy等人提出 Vision Transformer（ViT），将图像分割为固定大小的图像块，经嵌入与位置编码后，通过 Transformer 编码器捕捉图像块间的注意力关系，最终经全连接层输出预测。本文以个股最新交易日的 level2 数据图像作为输入，经通道内归一化处理后输入 ViT 模型，提取图像特征并预测未来 10 日超额收益。

ViViT 模型

为进一步引入时间维度信息，本研究还采用 Video Vision Transformer（ViViT）处理历史图像序列。2021 年 Arnab 等人提出 ViViT，用于视频数据的建模，其在 ViT 基础上进行了两方面的扩展：（1）在嵌入阶段，ViViT 需要考虑时间维度的切分，作者提出两种做法。方法一是 Uniform Frame Sampling，按顺序对视频进行逐帧采样，每一帧都采用 ViT 的做法进行图像切分；方法二是 Tubelet Embedding，直接将视频切分成固定尺寸的三维小立方体。本研究采用方法二，因为其更有利于捕捉局部时空特征。（2）在编码器阶段，除了图像上的空间注意力外，ViViT 还需考虑时间注意力，作者提出四种做法。方法一是 Spatio-Temporal Attention，直接将时空序列展平，再使用 Transformer 编码器学习自注意力，缺点是复杂度呈平方级；方法二是 Factorised Encoder，先通过空间 Transformer 编码器提取空间特征，再经时间 Transformer 编码器融合时序信息，能够有效降低计算复杂度；方法三是 Factorised Self-Attention，在一个模块中先后学习空间和时间注意力，再堆叠多个模块；方法四是 Factorised Dot-Product Attention，将时间和空间注意力的计算放在不同的注意力头中来实现。本研究采用方法二，因为其能够在保证模型性能的同时显著降低计算复杂度。

模型信号测试

本章对 ViT 和 ViViT 在测试集中的预测信号进行回测分析。为减轻随机性影响，每个模型分别使用三个随机数种子进行训练，并将三次训练结果等权集成，作为最终的因子信号用于回测。

因子测试

因子测试方法如下：（1）股票池：全 A 股，剔除 ST 股票，剔除每个截面期下一交易日停牌、涨停的股票。（2）回测区间：2017/1/1～2025/11/30。（3）调仓周期：周频，不计交易费用。（4）测试方法：IC 值分析，因子分 10 层测试。测试结果显示，ViT 模型和 ViViT 模型各有优势。ViT 模型在预测能力上表现更强，其 RankIC 均值、RankICIR、TOP 组合超额收益及信息比率等指标均较高；ViViT 模型则表现出更低的 TOP 组合换手率，这主要得益于其输入为过去 20 个交易日的图像序列，信号在时序上具有较高的自相关性。将 ViT 与 ViViT 模型等权融合后，融合模型在 RankIC 均值、TOP 组合超额收益等关键指标上均有提升，同时换手率较 ViT 模型明显下降。

因子相关性分析

相关性分析表明，ViT 与 ViViT 模型信号间的相关系数为 0.72，说明两者具有信息互补性。以团队前期研究报告《基于逐笔成交的深度学习选股模型》（2025.7.14）中的 Transformer 模型信号作为时序类模型的代表，ViT、ViViT 及两者融合模型与该时序模型信号的相关性在 0.6～0.7 之间，进一步表明图像模型所提取的信号与传统时序模型具有明显差异。此外，深度学习因子整体呈现反转、低流动性、高 beta、低估值等风格暴露，市值暴露相对较弱。

使用基于 level2 数据图像的融合模型信号对时序 Transformer 模型进行回归，并对回归残差进行回测。结果表明，残差仍具备稳定的选股能力，进一步证明图像模型可捕捉时序模型无法覆盖的 Alpha 信息。从特征逻辑上看，时序模型主要学习量价数据在时间维度上的演变规律，而图像模型则更侧重于从价格与成交量/委托量的联合分布及其相关性中提取信息。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）