2026年量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探

  • 来源:国盛证券
  • 发布时间:2026/01/22
  • 浏览次数:90
  • 举报
相关深度报告REPORTS

量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探.pdf

量化专题报告:“机器学习”选股模型系列研究(一),量价指纹模型的构建与应用初探。前言:本篇报告借鉴大语言模型的语义理解思想,提出““量价指纹”的概念,将市场交易数据视为一种特殊““语言”,通过自监督学习,理解、提取日内量价行为中蕴含的特征,并在端到端深度学习模型中做了初步应用。量价指纹模型的构建:“量价指纹”模型的构建流程遵循了从原始数据处理到深度语义表征的路径,具体而言,我们围绕分钟特征处理、双任务自监督学习、防坍缩正则化这3个关键环节展开指纹的具体构建:(1)分钟特征预处...

前言

当前,以大语言模型为代表的人工智能技术,正在深刻影响着人们获取与处理信息的方 式。ChatGPT、DeepSeek 等模型的突破性进展揭示了一个根本性转变:人工智能正从模 式识别与统计预测的浅层任务,进化到语义理解与逻辑推理的深层认知阶段。 在自然语言处理领域,模型不再仅仅通过统计共现关系来预测下一个词语,而是通过海 量文本预训练,真正“理解”语言:每个词、句子乃至整个篇章都被映射为一个独特的 语义嵌入向量,这个向量并非简单的数值堆砌,而是模型对输入信息进行深度“思考” 后的整体性表征——它编码了文本的语法结构、情感和逻辑关系。这一技术革命的核心 价值在于:从“知道是什么”到“理解为什么”的认知跃迁。模型能够理解文本背后的 意图、情感、逻辑关系,甚至进行创造性思考。这种能力的实现,得益于两个关键技术 的突破:一是 Transformer 架构强大的序列建模能力,能够捕捉长距离依赖关系;二是 自监督预训练范式,使模型能够从海量无标注数据中自主发现规律。

大模型的思考方式也为我们研究金融市场提供了全新的方法论视角。大多数量化选股研 究主要依赖“因子”这一范式:通过人工设计或算法挖掘,从市场价格、成交量等原始 数据中提取具有统计显著性的数值特征,建立与未来收益率的预测关系。每个因子本质 上是一个独立的市场“描述”片段,但因子数目众多,往往存在信息冗余与多重共线性 的问题,即使进行了复杂的降维处理,也难以从根本上形成对市场动态的统一、内聚的 语义表征。而大模型通过端到端的深度表示学习,能直接从原始序列中提取高信息密度、 低维度相关的语义压缩向量,从而在一定程度上缓解传统“因子”范式的上述问题。 本文为国盛金工“机器学习”选股模型系列研究的首篇报告,受到大模型技术范式的启 发,我们尝试提出“量价指纹”这一概念,旨在探索如何将大模型的语义理解能力与结 构化表征能力引入到金融量化领域中。具体地,我们将借助股票的分钟量价数据,将其 视为特殊““语言”,通过自监督学习,理解、提取日内量价行为中蕴含的特征,生成日度 的“量价指纹”,并将其在端到端深度学习选股模型中进行初步应用。

量价指纹概念简介

如前文所述,本文提出“量价指纹”这一概念,目的是探索如何将大模型的语义理解能 力、结构化表征能力,在金融量化领域中进行应用。““量价指纹”概念的提出,建立在 3 个基本观察之上:

(1)市场的“语言”属性

金融市场交易数据本质上是一种特殊的““语言”——一种由买卖双方通过价格、成交量、 订单等信号进行交流的复杂系统。如果将连续不断的市场交易视为一种由“资金语言” 写就的浩瀚文本,那么每一分钟的价量关系就是一个““词汇”,每一日的交易序列则构成 了一段蕴含丰富““语义”的段落。正如 ChatGPT 等模型并非通过死记硬背来预测下一个 词语、而是通过深度学习语言的底层语法与语义逻辑来“理解”文本一样,我们的目标 不再是进行简单的数值预测,而是理解市场这段“文本”所表达的真正内涵,从海量交 易数据中学习市场的“语法”与“语义”。

(2)从特征工程到表示学习

传统因子方法本质上是特征工程:研究者基于先验知识或统计方法,设计特定的特征提 取函数。而量价指纹范式则属于表示学习:模型自主地从原始数据中发现数据的内部结 构,学习一种能够捕获数据本质特征的表示方式。这种表示不是针对某个特定预测任务 而设计的,而是面向整个领域的通用表示。

(3)从数值预测到语义理解

我们认为量价指纹模型最重要的进步,是从数值预测到语义理解的跨越。我们不再仅仅 关心“明天股票会涨多少”,而是试图理解“今天的交易模式反映了什么样的市场逻辑” ——比如是机构投资者的系统性布局,还是个人投资者的跟风炒作?是流动性驱动的技 术性反弹,还是基本面改善的价值回归?量价指纹模型就是在这些深入理解的基础上, 提取日内量价行为中蕴含的特征。

“量价指纹”这一命名源于指纹的双重隐喻。指纹既是唯一标识——每个人的指纹图案 都独一无二,如同每个交易日的量价模式都蕴含其特定的市场故事;也是结构表征—— 指纹由嵴线、纹型、三角点等要素构成系统性图案,如同市场数据中隐藏着日内节奏、 价量配合、订单流等深层结构规律。我们将这一理念技术化:通过因果 Transformer 架 构与双任务自监督学习“(收益率预测与量价重建),迫使模型不仅学习统计规律,更要求 它必须理解市场动态背后的因果机制与结构关系。最终,模型将全天的复杂交互压缩为 一个独特的、低维的语义嵌入向量,即“量价指纹”。 

这种通用表示并非简单地将数百个因子压缩在一起,而是通过深度学习重建了一个新的、 自洽的语义坐标系。在这个坐标系中,指纹向量的每个维度都代表了模型从数据中自主 发现的一个潜在““市场语义概念”,这些概念相互关联、共同作用,以更紧凑、更内在一 致的方式,““讲述”着当日市场从开盘到收盘的完整故事。例如,某个维度可能专门编码 “早盘大单流入与价格趋势的共振强度”,另一个维度则可能捕捉““午后流动性萎缩与波 动率放大的耦合关系”。这些多维度的语义信息交织融合,共同构成了对当日市场行为的 深刻洞察。 量价指纹还具有动态性的特征,它不是静态快照,而是记录了全天交易过程的视频,它 不仅捕捉最终状态,更重要的是记录了市场状态的演化轨迹——例如早盘的试探性放量、 午后的缩量盘整、尾盘的突然异动,这些动态过程都被编码在指纹向量中。这种动态性 使得量价指纹能够区分表面上相似但过程完全不同的市场模式:比如同样上涨 3%的两 个交易日,一个可能是平稳推进,另一个可能是剧烈震荡后的尾盘拉升,这两种截然不 同的动态过程对应着完全不同的市场逻辑和投资者行为模式。量价指纹通过对全天交易 序列的深度编码,不仅理解““市场当前是什么状态”,更重要的是理解““市场如何演变到 这个状态”,这为判断市场未来的可能路径提供了更深层的语义依据。

量价指纹的构建

量价指纹的构建过程建立在一个自监督学习框架之上,其核心是通过双任务学习迫使模 型理解价量关系的深层语义结构。我们将每天每只股票的分钟级特征作为一个样本,记 为? ∈ ℝ ?×?,其中,? = 237是交易分钟数“(9:30-11:30,13:00-14:57),? = 32是特征 维度“(4 维价格特征 + 28 维交易特征)。我们的目标是学习一个映射函数 ?: ℝ ?×? → ℝ ?, 将高维的时间序列数据压缩为低维的日度指纹向量 ? ∈ ℝ ? “,其中? = 128“为嵌入维度、 也就是我们设定的量价指纹的维度。该指纹向量应满足以下性质: (1)信息丰富性:保留原始数据中的关键模式信息; (2)区分性:不同模式的时间序列对应不同的指纹; (3)稳定性:相似模式的时间序列产生相近的指纹; (4)因果性:指纹仅依赖于当日信息,不包含未来信息。

分钟特征预处理

我们采用每只股票每日以下的 32 个分钟特征构建量价指纹: 价格特征:high、low、close、价格位置“((该分钟 close-当日跌停价)/(当日涨停价当日跌停价),用于指示当前价格相对于涨跌停的位置); 不需要复权处理的交易特征:成交额、成交笔数、每笔成交额、主买成交额、主买 成交笔数、主卖成交额、主卖成交笔数、浮动金额主买超大单/大单/中单成交笔数、 浮动金额主卖超大单/大单/中单成交笔数、挂单额、挂单笔数、撤单额、撤单笔数; 需要复权处理的交易特征:成交量、主买成交量、主卖成交量、浮动金额主买超大 单/大单/中单成交量,浮动金额主卖超大单/大单/中单成交量、撤单量、挂单量。

量价指纹的生成原理

传统的监督学习范式(如收益率预测)致力于最小化模型预测值与外部标签(如未来涨 跌幅)之间的误差。与之不同,我们构建的量价指纹生成模型采用一种双任务自监督学 习框架,其中核心机制是因果掩码。该框架旨在从日度量价序列中挖掘通用且稳健的时 序表征,其关注的核心是“理解”而非“预测”。

在这一范式下,指纹生成模型通过双任务协同学习,被强制捕捉序列中稳定的统计规律 与动态模式:前向任务专注于价格特征(也是一种收益率特征)的因果预测,后向任务 则负责交易特征重建“。指纹向量作为模型对输入序列深度理解的中间产 物,其质量不再通过外部“标准答案”来衡量,而是通过其在促进下游任务表现上的能 力来间接体现。因此,模型的训练过程自然无需依赖外部标注的验证集。

前向因果预测任务

前向因果预测任务是整个框架的灵魂,致力于学习从交易特征到价格特征的因果映射。 在这一任务中,模型严格遵循时间先后顺序:预测第 t 分钟的价格特征时,只能利用第 t 分钟及之前的交易信息、以及第 t-1 分钟及之前的所有价格信息,对第 t 分钟及之后的 任何信息则完全不可见。这种严格的因果性通过因果注意力掩码机制予以保障,具体而 言,我们构造一个上三角注意力掩码矩阵,令其对角线以上元素为负无穷,从而在 softmax 归一化后使模型无法关注未来位置,确保每个时间步仅能基于自身及过去的信 息进行预测。

后向特征重建任务

后向特征重建任务作为前向任务的补充,聚焦于学习交易特征的高效表示。该任务采用 随机掩码策略,但仅在交易特征维度上进行遮掩:随机选取一定比例的时间步,将其交 易特征置为零,并让模型重建这些被掩码的部分。与前向任务不同,后向任务允许模型 在重建时访问序列的全局信息(包括未来时间步),以捕捉交易特征间可能存在的复杂、 非严格因果的依赖关系与整体结构。

前向与后向任务并非相互割裂,而是通过共享模型参数与联合优化形成紧密的协同效应, 使模型既能把握价格演化的因果脉络,也能深入理解交易特征的分布模式,从而习得具 有强表征力与泛化性的日度量价指纹。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至