2025年金工深度研究:基于level2数据图像的选股模型
- 来源:华泰证券
- 发布时间:2026/01/08
- 浏览次数:108
- 举报
金工深度研究:基于level2数据图像的选股模型.pdf
金工深度研究:基于level2数据图像的选股模型。人工智能99:利用图像模型分析level2数据如何从海量的level2数据中提取有效的Alpha信号?本文提出一种基于图像识别的全新解决方案。该方法将高频逐笔成交与逐笔委托数据,转换为标准化的三维图像格式。其中,图像的通道数、宽度和高度分别对应订单类型、价格区间以及成交量/委托量区间,每个像素点的值则代表具备相同属性的订单笔数,像素值越高,表明该类订单出现的频率越高。随后,本研究应用强大的视觉模型VisionTransformer(ViT)及视频模型VideoVisionTransformer(ViViT)对生成的图像(及图像序列)进行模式识别...
研究导读
随着人工智能技术的进步,深度学习模型在量化投资领域的应用日益广泛。其中,时序神 经网络和图神经网络是当前研究的热点方向。时序神经网络(如 GRU、Transformer 等) 善于刻画时间序列的动态规律,例如在华泰金工前期研究《基于全频段量价特征的选股模 型》(2023.12.8)中,通过共享参数的 GRU 多任务学习模型,同时捕捉日、周、月 k 线的 时序特征;《基于逐笔成交的深度学习选股模型》(2025.7.14)采用 Transformer 模型分析 逐笔成交数据中的大小单、主动买卖等资金流的日内变化模式。图神经网络(如 GCN、GAT 等)则更侧重于建模股票之间的关联结构,例如在《图神经网络选股的进阶之路》(2022.4.11) 报告中,通过构建残差图注意力网络,将股票收益分解为行业关联、因子关联与特异性收 益三部分,深入挖掘股票间的结构化信息。 相比之下,基于图像识别的深度学习方法在量化投资领域的探索相对有限。Jiang 等人于 2023 年在 The Journal of Finance 发表论文(Re‐) Imag (in) ing price trends,尝试将股票的 日频量价数据转化为“蜡烛图”图像,并利用卷积神经网络(CNN)提取特征以预测未来 收益。我们在复现该研究时发现,其效果不及常见的 GRU 时序模型,这可能是因为从价格 序列到蜡烛图的转换过程中损失了部分关键信息。
近期,微软亚研院的 Li 等人在 2025 年 ICLR 上发表论文 Mars: a financial market simulation engine powered by generative foundation model,提出了一种基于生成式基础模型的金融 市场模拟引擎 MarS。MarS 的核心是一个订单级别的生成式基础模型 LMM(Large Market Model)。LMM 将即时订单簿(Limit Order Book)和订单流(Order Batch)转换为令牌 (Token),并借助大语言模型架构进行训练,以实现订单生成和市场模拟。该框架可应用 于金融市场预测、风险检测、情景分析和强化学习环境等多个场景。 值得注意的是,MarS 在预处理阶段将订单流数据转换为图像格式。具体而言,订单流包含 过去一分钟内的所有订单,每个订单具有类型、价格区间和委托量区间三种属性。这三种 属性分别对应于图像的通道数(3 类订单:买单、卖单、撤单)、宽度(32 个价格区间)和 高度(32 个委托量区间)。每个像素位置表示具有相同属性组合的订单数量,像素值越高, 对应订单数越多。图像构造完成后,进一步通过 VQGAN 将其转换为离散令牌,并输入 LLaMA2 进行训练。

本报告借鉴 MarS 中对订单流的图像化处理思路,将个股单日的逐笔成交与逐笔委托数据转 换为标准化图像,并采用 Vision Transformer(ViT)模型进行训练,以构建收益预测模型。 在此基础上,我们进一步引入过去 20 个交易日的图像序列,利用 Video Vision Transformer (ViViT)模型进行时序建模。实证表明,ViT 与 ViViT 模型均表现出良好的选股能力,其 中 ViViT 模型在换手率控制方面表现更优,而两者等权合成后预测效果得到进一步提升。
数据与方法
本章基于逐笔成交与逐笔委托数据,通过预处理转换成图像格式,并利用深度学习模型训 练选股信号。
逐笔成交数据
逐笔成交数据是股票每笔成交明细的记录,包含成交时间、成交价格、成交量、成交金额、 买方卖方编号、买卖方向标志等交易细节。
逐笔委托数据
逐笔委托数据是股票每笔委托明细的记录,包括委托时间、委托价格、委托量、委托类型、 委托方向、订单编号等重要信息。

需注意的是,上交所和深交所的逐笔委托数据在规则上存在一定差异: (1)上交所的撤单信息记录在逐笔委托数据中,通过“委托类型”字段区分新增订单和撤 回订单;深交所的撤单信息记录在逐笔成交数据中,以成交价格为 0 作为标识。 (2)上交所的委托量为剩余委托量,代表委托报入经即时成交后的剩余数量,有 3 种情形。 若委托报入后立即全部成交,只记录在逐笔成交中,不记录在逐笔委托中;若委托报入后 部分成交,成交部分记录在逐笔成交中,未成交部分记录在逐笔委托中;若委托报入后未 成交,只记录在逐笔委托中,等后续撮合成交后再记录逐笔成交。深交所则直接记录完整 委托量,逻辑更为简明。
图像转换
在数据处理与表征方面,本研究借鉴了微软亚洲研究院 MarS 论文中将订单流转换为图像格 式的方法。该论文中,订单流被定义为过去一分钟内的所有订单记录,每个订单包含订单 类型、价格区间和委托量区间三种属性。具体地,订单类型包括买单、卖单和撤单三类, 类似于 RGB 图像的三个通道;价格被等分为 32 个区间,对应图像的宽度;委托量同样被 划分为 32 个区间,对应图像的高度。图像中每个像素点的位置由价格和委托量的区间组合 确定,而像素值则代表在指定时间窗口内,满足该订单类型、价格区间和委托量区间组合 的订单数量。像素值越高,表明具备该属性组合的订单数量越多。
基于上述思路,并结合本研究的实际预测目标与数据特点,我们对图像的构建方式进行了 调整。首先,为适配低频预测任务,我们将单日内个股的全部逐笔成交与逐笔委托数据聚 合,形成一张代表当日交易信息的综合图像。其次,为更细致地刻画交易行为,本研究在 MarS 论文定义的 3 种基础订单类型基础上,进一步依据主动买卖、大小单、撤单方向等多 个维度进行细分,将通道数扩展为 15 个,从而构建信息更为丰富的特征表示。此外,考虑 到原始论文中 32×32 的图像维度在处理日级别大量数据时可能导致计算和存储成本过高, 本研究将价格与委托量的区间划分数量均压缩至 8,最终构建出维度为 15×8×8的图像数据。 此优化在保留核心结构信息的同时,显著降低了模型训练所需的计算资源。
ViT 模型
模型方面,我们采用基于 Transformer架构的视觉模型。2021 年 Dosovitskiy等人提出 Vision Transformer(ViT),将图像分割为固定大小的图像块,经嵌入与位置编码后,通过 Transformer 编码器捕捉图像块间的注意力关系,最终经全连接层输出预测。本文以个股最 新交易日的 level2 数据图像作为输入,经通道内归一化处理后输入 ViT 模型,提取图像特 征并预测未来 10 日超额收益。

ViViT 模型
为进一步引入时间维度信息,本研究还采用 Video Vision Transformer(ViViT)处理历史图 像序列。2021 年 Arnab 等人提出 ViViT,用于视频数据的建模,其在 ViT 基础上进行了两 方面的扩展: (1)在嵌入阶段,ViViT 需要考虑时间维度的切分,作者提出两种做法。方法一是 Uniform Frame Sampling,按顺序对视频进行逐帧采样,每一帧都采用 ViT 的做法进行图像切分; 方法二是 Tubelet Embedding,直接将视频切分成固定尺寸的三维小立方体。本研究采用方 法二,因为其更有利于捕捉局部时空特征。 (2)在编码器阶段,除了图像上的空间注意力外,ViViT 还需考虑时间注意力,作者提出 四种做法。方法一是 Spatio-Temporal Attention,直接将时空序列展平,再使用 Transformer 编码器学习自注意力,缺点是复杂度呈平方级;方法二是 Factorised Encoder,先通过空间 Transformer 编码器提取空间特征,再经时间 Transformer 编码器融合时序信息,能够有效 降低计算复杂度;方法三是 Factorised Self-Attention,在一个模块中先后学习空间和时间 注意力,再堆叠多个模块;方法四是 Factorised Dot-Product Attention,将时间和空间注意 力的计算放在不同的注意力头中来实现。本研究采用方法二,因为其能够在保证模型性能 的同时显著降低计算复杂度。
模型信号测试
本章对 ViT 和 ViViT 在测试集中的预测信号进行回测分析。为减轻随机性影响,每个模型分 别使用三个随机数种子进行训练,并将三次训练结果等权集成,作为最终的因子信号用于 回测。
因子测试
因子测试方法如下: (1)股票池:全 A 股,剔除 ST 股票,剔除每个截面期下一交易日停牌、涨停的股票。 (2)回测区间:2017/1/1~2025/11/30。 (3)调仓周期:周频,不计交易费用。 (4)测试方法:IC 值分析,因子分 10 层测试。 测试结果显示,ViT 模型和 ViViT 模型各有优势。ViT 模型在预测能力上表现更强,其 RankIC 均值、RankICIR、TOP 组合超额收益及信息比率等指标均较高;ViViT 模型则表现出更低 的 TOP 组合换手率,这主要得益于其输入为过去 20 个交易日的图像序列,信号在时序上 具有较高的自相关性。将 ViT 与 ViViT 模型等权融合后,融合模型在 RankIC 均值、TOP 组合超额收益等关键指标上均有提升,同时换手率较 ViT 模型明显下降。
因子相关性分析
相关性分析表明,ViT 与 ViViT 模型信号间的相关系数为 0.72,说明两者具有信息互补性。 以团队前期研究报告《基于逐笔成交的深度学习选股模型》(2025.7.14)中的 Transformer 模型信号作为时序类模型的代表,ViT、ViViT 及两者融合模型与该时序模型信号的相关性 在 0.6~0.7 之间,进一步表明图像模型所提取的信号与传统时序模型具有明显差异。此外, 深度学习因子整体呈现反转、低流动性、高 beta、低估值等风格暴露,市值暴露相对较弱。
使用基于 level2 数据图像的融合模型信号对时序 Transformer 模型进行回归,并对回归残 差进行回测。结果表明,残差仍具备稳定的选股能力,进一步证明图像模型可捕捉时序模 型无法覆盖的 Alpha 信息。从特征逻辑上看,时序模型主要学习量价数据在时间维度上的 演变规律,而图像模型则更侧重于从价格与成交量/委托量的联合分布及其相关性中提取信 息。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 泛科技框架重构及选股模型初探.pdf
- 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- PINN信息约束与时序截面双流网络选股模型分析.pdf
- 基于时序神经网络的选股模型初探.pdf
- 投资分析工具专题研究报告:综合财务指标选股模型.pdf
- 机器学习选股系列研究之二:基于Dask计算图的遗传规划高频因子挖掘框架.pdf
- 投资策略:“十五五”之六大未来产业图谱及选股框架,掘金未来.pdf
- “十五五”之六大未来产业图谱及选股框架:掘金未来.pdf
- 科创策略、情绪价量策略收益显著,3月推荐电子机械股——策略化选股月报(202603).pdf
- 量化选股策略更新.pdf
- 相关标签
- 相关专题
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 投资分析工具专题研究报告:综合财务指标选股模型.pdf
- 2 基于时序神经网络的选股模型初探.pdf
- 3 PINN信息约束与时序截面双流网络选股模型分析.pdf
- 4 金工深度研究:基于level2数据图像的选股模型.pdf
- 5 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 6 泛科技框架重构及选股模型初探.pdf
- 7 Transformer架构下的量价选股策略:ChatGPT核心算法应用于量化投资.pdf
- 8 量化选股策略:基于卷积神经网络的股价走势AI识别与分类.pdf
- 9 因子选股系列之九十四:UMR2.0,风险溢价视角下的动量反转统一框架再升级.pdf
- 10 ChatGPT应用分析:ChatGPT在择时、风格、行业、选股中的应用实践.pdf
- 1 PINN信息约束与时序截面双流网络选股模型分析.pdf
- 2 金工深度研究:基于level2数据图像的选股模型.pdf
- 3 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 4 泛科技框架重构及选股模型初探.pdf
- 5 高频选股因子周报:高频整体表现优异,多粒度因子维持正收益。AI增强组合超额持续回撤.pdf
- 6 因子选股系列专题报告:基于历史K线形态的因子选股研究.pdf
- 7 多因子选股系列研究报告:个股日内成交量分布特征与日内流动性弹性刻画.pdf
- 8 多因子选股系列研究之二十四:个股日内成交量周期性节奏刻画与“滴水穿石”因子构建.pdf
- 9 量化投资因子选股系列专题报告:DFQ_diversify,解决分布外泛化问题的自监督领域识别与对抗解耦模型.pdf
- 10 “量价淘金”选股因子系列研究:“高频数据+离散化构建方式”在因子研究中的重要性.pdf
- 1 金工深度研究:基于level2数据图像的选股模型.pdf
- 2 量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf
- 3 泛科技框架重构及选股模型初探.pdf
- 4 高频选股因子周报:高频整体表现优异,多粒度因子维持正收益。AI增强组合超额持续回撤.pdf
- 5 多因子选股系列研究之二十四:个股日内成交量周期性节奏刻画与“滴水穿石”因子构建.pdf
- 6 科创策略、情绪价量策略收益显著,3月推荐电子机械股——策略化选股月报(202603).pdf
- 7 高频和行为金融学选股因子跟踪周报:国防军工行业拥挤度较高,有限关注类因子表现较好.pdf
- 8 银河金工主题选股系列报告:成长盈利现金流三足鼎立,消费基本面量化多维制胜.pdf
- 9 量化选股策略更新.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年泛科技框架重构及选股模型初探
- 2 2026年深度学习系列之一:在线学习增强选股模型的适应性
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 5 2025年金工深度研究:基于level2数据图像的选股模型
- 6 2025年PINN信息约束与时序截面双流网络选股模型分析
- 7 2024年AI选股模型特征筛选与处理:SHAP、中性化与另类特征
- 8 2023年基于时序神经网络的选股模型初探
- 9 2026年投资策略:“十五五”之六大未来产业图谱及选股框架,掘金未来
- 1 2026年泛科技框架重构及选股模型初探
- 2 2026年深度学习系列之一:在线学习增强选股模型的适应性
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 5 2025年金工深度研究:基于level2数据图像的选股模型
- 6 2025年PINN信息约束与时序截面双流网络选股模型分析
- 7 2026年投资策略:“十五五”之六大未来产业图谱及选股框架,掘金未来
- 8 2026年“十五五”之六大未来产业图谱及选股框架:掘金未来
- 9 2026年科创策略、情绪价量策略收益显著,3月推荐电子机械股——策略化选股月报(202603)
- 1 2026年泛科技框架重构及选股模型初探
- 2 2026年深度学习系列之一:在线学习增强选股模型的适应性
- 3 2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探
- 4 2025年机器学习应用系列:强化学习驱动下的解耦时序对比选股模型
- 5 2025年金工深度研究:基于level2数据图像的选股模型
- 6 2026年投资策略:“十五五”之六大未来产业图谱及选股框架,掘金未来
- 7 2026年“十五五”之六大未来产业图谱及选股框架:掘金未来
- 8 2026年科创策略、情绪价量策略收益显著,3月推荐电子机械股——策略化选股月报(202603)
- 9 2026年量化选股策略更新
- 最新文档
- 最新精读
- 1 中汽协:2026年2月汽车工业产销报告.pdf
- 2 全球产业趋势跟踪周报(0202)OpenClaw震动开源生态,Kimi K2.5发布能力不俗.pdf
- 3 互联网传媒行业·AI周度跟踪:2月国产与进口游戏版号下发,OpenClaw等Agent推动token增长.pdf
- 4 金工专题报告:OpenClaw深度测评与应用指南.pdf
- 5 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 6 大模型赋能投研之十六:OpenClaw搭建个人投研助理(一).pdf
- 7 OpenClaw:AI从聊天到行动+-+下一代智能助手白皮书.pdf
- 8 AI投研应用系列(二):下一代投研基建,OpenClaw从部署到应用.pdf
- 9 计算机行业周报:openClaw推动AI产业进入Agent时代.pdf
- 10 OpenClaw发展研究报告1.0版.pdf
- 1 2026年历史6轮油价上行周期对当下交易的启示
- 2 2026年储能行业深度:驱动因素、发展前瞻、产业链及相关公司深度梳理
- 3 2026年央国企改革系列之五:央企创投基金运作与产融协同
- 4 2026年大类资产配置新框架(13):A股和港股五轮牛市复盘
- 5 2026年公用事业行业UCOSAF生物柴油:短期边际变化与长期成长逻辑再审视
- 6 2026年医药生物行业In vivo CAR疗法:并购与合作持续火热,多条在研管线陆续迎来概念验证数据读出
- 7 2026年人形机器人行业投资策略报告:聚焦量产新阶段,把握供应链机遇
- 8 2026年小核酸行业系列报告(一):小核酸成药之路——Listening to the Sound of Silence,The Road to RNA Therapeutics
- 9 2026年信用债ETF研究系列一:升贴水率篇,折价幅度越大的信用债ETF更具性价比吗?
- 10 2026年基金经理研究系列报告之九十二:南方基金林乐峰,宏观为锚,质量为核,始于客户需求,打造多元可复制的固收+产品线
