2026年量化专题报告：“机器学习”选股模型系列研究（一），量价指纹模型的构建与应用初探

来源：国盛证券
发布时间：2026/01/22
浏览次数：90
举报

相关深度报告REPORTS

量化专题报告：“机器学习”选股模型系列研究（一），量价指纹模型的构建与应用初探.pdf

量化专题报告：“机器学习”选股模型系列研究（一），量价指纹模型的构建与应用初探。前言：本篇报告借鉴大语言模型的语义理解思想，提出““量价指纹”的概念，将市场交易数据视为一种特殊““语言”，通过自监督学习，理解、提取日内量价行为中蕴含的特征，并在端到端深度学习模型中做了初步应用。量价指纹模型的构建：“量价指纹”模型的构建流程遵循了从原始数据处理到深度语义表征的路径，具体而言，我们围绕分钟特征处理、双任务自监督学习、防坍缩正则化这3个关键环节展开指纹的具体构建：（1）分钟特征预处...

前言

当前，以大语言模型为代表的人工智能技术，正在深刻影响着人们获取与处理信息的方式。ChatGPT、DeepSeek 等模型的突破性进展揭示了一个根本性转变：人工智能正从模式识别与统计预测的浅层任务，进化到语义理解与逻辑推理的深层认知阶段。在自然语言处理领域，模型不再仅仅通过统计共现关系来预测下一个词语，而是通过海量文本预训练，真正“理解”语言：每个词、句子乃至整个篇章都被映射为一个独特的语义嵌入向量，这个向量并非简单的数值堆砌，而是模型对输入信息进行深度“思考” 后的整体性表征——它编码了文本的语法结构、情感和逻辑关系。这一技术革命的核心价值在于：从“知道是什么”到“理解为什么”的认知跃迁。模型能够理解文本背后的意图、情感、逻辑关系，甚至进行创造性思考。这种能力的实现，得益于两个关键技术的突破：一是 Transformer 架构强大的序列建模能力，能够捕捉长距离依赖关系；二是自监督预训练范式，使模型能够从海量无标注数据中自主发现规律。

大模型的思考方式也为我们研究金融市场提供了全新的方法论视角。大多数量化选股研究主要依赖“因子”这一范式：通过人工设计或算法挖掘，从市场价格、成交量等原始数据中提取具有统计显著性的数值特征，建立与未来收益率的预测关系。每个因子本质上是一个独立的市场“描述”片段，但因子数目众多，往往存在信息冗余与多重共线性的问题，即使进行了复杂的降维处理，也难以从根本上形成对市场动态的统一、内聚的语义表征。而大模型通过端到端的深度表示学习，能直接从原始序列中提取高信息密度、低维度相关的语义压缩向量，从而在一定程度上缓解传统“因子”范式的上述问题。本文为国盛金工“机器学习”选股模型系列研究的首篇报告，受到大模型技术范式的启发，我们尝试提出“量价指纹”这一概念，旨在探索如何将大模型的语义理解能力与结构化表征能力引入到金融量化领域中。具体地，我们将借助股票的分钟量价数据，将其视为特殊““语言”，通过自监督学习，理解、提取日内量价行为中蕴含的特征，生成日度的“量价指纹”，并将其在端到端深度学习选股模型中进行初步应用。

量价指纹概念简介

如前文所述，本文提出“量价指纹”这一概念，目的是探索如何将大模型的语义理解能力、结构化表征能力，在金融量化领域中进行应用。““量价指纹”概念的提出，建立在 3 个基本观察之上：

（1）市场的“语言”属性

金融市场交易数据本质上是一种特殊的““语言”——一种由买卖双方通过价格、成交量、订单等信号进行交流的复杂系统。如果将连续不断的市场交易视为一种由“资金语言” 写就的浩瀚文本，那么每一分钟的价量关系就是一个““词汇”，每一日的交易序列则构成了一段蕴含丰富““语义”的段落。正如 ChatGPT 等模型并非通过死记硬背来预测下一个词语、而是通过深度学习语言的底层语法与语义逻辑来“理解”文本一样，我们的目标不再是进行简单的数值预测，而是理解市场这段“文本”所表达的真正内涵，从海量交易数据中学习市场的“语法”与“语义”。

（2）从特征工程到表示学习

传统因子方法本质上是特征工程：研究者基于先验知识或统计方法，设计特定的特征提取函数。而量价指纹范式则属于表示学习：模型自主地从原始数据中发现数据的内部结构，学习一种能够捕获数据本质特征的表示方式。这种表示不是针对某个特定预测任务而设计的，而是面向整个领域的通用表示。

（3）从数值预测到语义理解

我们认为量价指纹模型最重要的进步，是从数值预测到语义理解的跨越。我们不再仅仅关心“明天股票会涨多少”，而是试图理解“今天的交易模式反映了什么样的市场逻辑” ——比如是机构投资者的系统性布局，还是个人投资者的跟风炒作？是流动性驱动的技术性反弹，还是基本面改善的价值回归？量价指纹模型就是在这些深入理解的基础上，提取日内量价行为中蕴含的特征。

“量价指纹”这一命名源于指纹的双重隐喻。指纹既是唯一标识——每个人的指纹图案都独一无二，如同每个交易日的量价模式都蕴含其特定的市场故事；也是结构表征—— 指纹由嵴线、纹型、三角点等要素构成系统性图案，如同市场数据中隐藏着日内节奏、价量配合、订单流等深层结构规律。我们将这一理念技术化：通过因果 Transformer 架构与双任务自监督学习“（收益率预测与量价重建），迫使模型不仅学习统计规律，更要求它必须理解市场动态背后的因果机制与结构关系。最终，模型将全天的复杂交互压缩为一个独特的、低维的语义嵌入向量，即“量价指纹”。

这种通用表示并非简单地将数百个因子压缩在一起，而是通过深度学习重建了一个新的、自洽的语义坐标系。在这个坐标系中，指纹向量的每个维度都代表了模型从数据中自主发现的一个潜在““市场语义概念”，这些概念相互关联、共同作用，以更紧凑、更内在一致的方式，““讲述”着当日市场从开盘到收盘的完整故事。例如，某个维度可能专门编码 “早盘大单流入与价格趋势的共振强度”，另一个维度则可能捕捉““午后流动性萎缩与波动率放大的耦合关系”。这些多维度的语义信息交织融合，共同构成了对当日市场行为的深刻洞察。量价指纹还具有动态性的特征，它不是静态快照，而是记录了全天交易过程的视频，它不仅捕捉最终状态，更重要的是记录了市场状态的演化轨迹——例如早盘的试探性放量、午后的缩量盘整、尾盘的突然异动，这些动态过程都被编码在指纹向量中。这种动态性使得量价指纹能够区分表面上相似但过程完全不同的市场模式：比如同样上涨 3%的两个交易日，一个可能是平稳推进，另一个可能是剧烈震荡后的尾盘拉升，这两种截然不同的动态过程对应着完全不同的市场逻辑和投资者行为模式。量价指纹通过对全天交易序列的深度编码，不仅理解““市场当前是什么状态”，更重要的是理解““市场如何演变到这个状态”，这为判断市场未来的可能路径提供了更深层的语义依据。

量价指纹的构建

量价指纹的构建过程建立在一个自监督学习框架之上，其核心是通过双任务学习迫使模型理解价量关系的深层语义结构。我们将每天每只股票的分钟级特征作为一个样本，记为? ∈ ℝ ?×?，其中，? = 237是交易分钟数“（9:30-11:30，13:00-14:57），? = 32是特征维度“（4 维价格特征 + 28 维交易特征）。我们的目标是学习一个映射函数 ?: ℝ ?×? → ℝ ?，将高维的时间序列数据压缩为低维的日度指纹向量 ? ∈ ℝ ? “，其中? = 128“为嵌入维度、也就是我们设定的量价指纹的维度。该指纹向量应满足以下性质：（1）信息丰富性：保留原始数据中的关键模式信息；（2）区分性：不同模式的时间序列对应不同的指纹；（3）稳定性：相似模式的时间序列产生相近的指纹；（4）因果性：指纹仅依赖于当日信息，不包含未来信息。

分钟特征预处理

我们采用每只股票每日以下的 32 个分钟特征构建量价指纹：价格特征：high、low、close、价格位置“（(该分钟 close-当日跌停价)/(当日涨停价当日跌停价)，用于指示当前价格相对于涨跌停的位置）；不需要复权处理的交易特征：成交额、成交笔数、每笔成交额、主买成交额、主买成交笔数、主卖成交额、主卖成交笔数、浮动金额主买超大单/大单/中单成交笔数、浮动金额主卖超大单/大单/中单成交笔数、挂单额、挂单笔数、撤单额、撤单笔数；需要复权处理的交易特征：成交量、主买成交量、主卖成交量、浮动金额主买超大单/大单/中单成交量，浮动金额主卖超大单/大单/中单成交量、撤单量、挂单量。

量价指纹的生成原理

传统的监督学习范式（如收益率预测）致力于最小化模型预测值与外部标签（如未来涨跌幅）之间的误差。与之不同，我们构建的量价指纹生成模型采用一种双任务自监督学习框架，其中核心机制是因果掩码。该框架旨在从日度量价序列中挖掘通用且稳健的时序表征，其关注的核心是“理解”而非“预测”。

在这一范式下，指纹生成模型通过双任务协同学习，被强制捕捉序列中稳定的统计规律与动态模式：前向任务专注于价格特征（也是一种收益率特征）的因果预测，后向任务则负责交易特征重建“。指纹向量作为模型对输入序列深度理解的中间产物，其质量不再通过外部“标准答案”来衡量，而是通过其在促进下游任务表现上的能力来间接体现。因此，模型的训练过程自然无需依赖外部标注的验证集。

前向因果预测任务

前向因果预测任务是整个框架的灵魂，致力于学习从交易特征到价格特征的因果映射。在这一任务中，模型严格遵循时间先后顺序：预测第 t 分钟的价格特征时，只能利用第 t 分钟及之前的交易信息、以及第 t-1 分钟及之前的所有价格信息，对第 t 分钟及之后的任何信息则完全不可见。这种严格的因果性通过因果注意力掩码机制予以保障，具体而言，我们构造一个上三角注意力掩码矩阵，令其对角线以上元素为负无穷，从而在 softmax 归一化后使模型无法关注未来位置，确保每个时间步仅能基于自身及过去的信息进行预测。

后向特征重建任务

后向特征重建任务作为前向任务的补充，聚焦于学习交易特征的高效表示。该任务采用随机掩码策略，但仅在交易特征维度上进行遮掩：随机选取一定比例的时间步，将其交易特征置为零，并让模型重建这些被掩码的部分。与前向任务不同，后向任务允许模型在重建时访问序列的全局信息（包括未来时间步），以捕捉交易特征间可能存在的复杂、非严格因果的依赖关系与整体结构。

前向与后向任务并非相互割裂，而是通过共享模型参数与联合优化形成紧密的协同效应，使模型既能把握价格演化的因果脉络，也能深入理解交易特征的分布模式，从而习得具有强表征力与泛化性的日度量价指纹。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）