2025年金融工程行业深度研究：GPT_Kline，MCoT与技术分析

来源：华泰证券
发布时间：2025/06/03
浏览次数：380
举报

相关深度报告REPORTS

金融工程行业深度研究：GPT_Kline，MCoT与技术分析.pdf

金融工程行业深度研究：GPT_Kline，MCoT与技术分析。多模态推理：从LLMs到MLLMs，从CoT到MCoT。多模态协同是大模型通往通用人工智能的必经之路，这就要求大模型不能仅仅是大语言模型，而需成为多模态全能的通才。早期计算机视觉领域的蓬勃发展为大模型带来了感知图片的能力，而近期思维链技巧的迅速崛起则为大模型提供了缜密的逻辑推理思维。MCoT将两者相结合，使大模型从简单的“感知理解图片”转为“基于图片思考”，进一步拓展了多模态大模型处理复杂任务的能力边界。OpenAI于2025年4月上线“满血版”O3模型，展示了...

大模型如何基于图片思考？

多模态大模型：从 LLM 到 MLLM

多模态协同是大模型通往通用人工智能（AGI）的必经之路。ChatGPT、DeepSeek 等里程碑式的大模型一次次的向人类证明，在自然语言处理的任务中，大模型的能力远超人们想象。然而，想接近 AGI 的圣杯，仅仅作为一个自然语言处理任务的“专家”依然远远不够。因此，多模态大模型（MLLMs）自然成为 AI 研究的重要方向，致力于将大模型的智能从文本的单模态泛化至图片、音频等领域，成为多模态智能的“通才”。典型的多模态大模型架构通常包含三个模块：编码器、连接器以及 LLM，而让多模态大模型“看得到，听得见”的关键则在于模态编码器。该模块负责将图片、音频等多模态信息转化为隐状态，经由连接器转化为 LLM 可以理解的视觉 Token，最后与文本模态的信息一并输入 LLM 生成文本输出。如需生成多模态输出通常需要在 LLM 后额外接入生成器。

计算机视觉（CV）的蓬勃发展是多模态大模型的基石。早期用于图像分类、目标检测等任务的经典模型多基于卷积神经网络（CNN）构造，如 AlexNet（Krizhevsky 等，2012）、VGG （Simonyan 和 Zisserman，2015）、ResNet（He 等，2016）。直至 2021 年左右，Google 和 OpenAI 先后提出 ViT（Dosovitskiy 等，2020）和 CLIP（Radford 等，2021）模型，将计算机视觉任务基础架构由 CNN 拓展至 Transformer 架构，并揭示了预训练基座模型的无限潜力。直至今日，许多多模态大模型的视觉编码器也基于以上两者进行架构。计算机视觉底层技术的突破和 Scaling Law 下大语言模型能力的不断迭代共同促成了多模态大模型的飞速发展。下图记载了多模态大模型发展历程中部分代表性模型，其中不乏 GPT-4o、Gemini 等耳熟能详的名字。

多模态思维链：从 CoT 到 MCoT

提升多模态大模型的表现，不仅需要一双“明亮的眼睛”，更需要一颗“聪慧的大脑”。早期大语言模型智力的进步主要受益于模型参数量、训练数据量和计算量的指数级增长。而 2024 年 9 月 OpenAI O1 模型的惊艳亮相，则开辟了除“堆参数、堆算力”之外的另一条道路：通过思维链（Chain of Thought，CoT）和测试阶段扩展（Test Time Scaling，TTS）提升大模型的推理能力。 CoT 方法（Wei 等，2022）由 Google 团队提出，其核心在于，通过提示引导模型“一步步思考”可以显著提升模型在复杂任务上的表现。CoT 方法也不仅是一种提示词技巧，其更重要的应用是与各种 TTS 方法结合，让“思考”成为大模型的内生能力。

TTS 的核心是为大模型测试阶段分配更多的计算资源，公开案例中最具代表性的模型之一是 DeepSeek-R1（Guo 等，2025）。DeepSeek-R1 模型的训练从预训练的 DeepSeek-V3 基座模型开始，使用大规模强化学习，为模型缜密思考、结果正确、格式一致的那些输出赋予高奖励，从而引导模型在推理阶段学会生成更长的 CoT，自然而然地增加了其测试时计算量，提升模型推理表现。

CoT 为大语言模型在复杂任务上的表现带来了很大提升，在多模态领域中也不例外，在 CoT 方法提出后不久，大量研究致力于发掘思维链在多模态任务中的应用，即从 CoT 扩展到 MCoT（Multimodal CoT）。Wang 等（2025）系统总结了自 2022 年底 ChatGPT 发布以来截至 2025 年 3 月，MCoT 方向的各类研究及里程碑模型，汇总如下。

基于图片进行思维链推理是 MCoT 中重要的分支之一。相比传统的图像识别、分类方法， MCoT 不仅需要让大模型建立对于图片的“感知”，还需要引导大模型对图片进行深入“理解和思考”。MCoT 的出现让大模型在图像问答任务中的表现突飞猛进，将多模态大模型的能力边界大大扩展，最先进的多模态推理大模型可以在拍照定位、图片解密等对于人类都具有挑战性的任务中游刃有余。

进一步，根据大模型思考时的载体可以将各类 MCoT 方法总结为以下两种： 1、输入文本和图像，基于纯文字进行推理，最终输出答案； 2、输入文本和图像，基于文字和图像进行推理，最终输出答案。显而易见，两种方法中后者或许才是真正的“多模态推理”，然而目前大部分多模态推理大模型的推理过程仍仅基于文字进行。

O3：从 Think Over Image 到 Think By Image

2025 年 4 月，OpenAI 正式上线“满血版”O3 模型，其展现了惊艳的图像推理能力，完成了从 Think Over Image 到 Think By Image 的转变，为大模型实现了真正的“多模态推理”。 O3 模型与其他模型的最大差异在于，O3 模型被训练在推理的过程中调用各种工具以应对复杂的多模态任务，尤其是图像推理任务，类似于将一个通用智能体融入了一个单独的大模型中。举例来说，O3 模型可以在一次推理过程中完成以下流程： 1、自主浏览网络，多次迭代搜索来找到有用的信息； 2、用 Python 执行和分析代码，并且画图进行可视化分析； 3、在 CoT 中对图片进行思考推理，并且对图片做裁剪、旋转等增强生成图片； 4、读取文件和记忆。最为重要的是，以上流程均无需用户提示，用户只需以简单的语言输入任务需求，之后的过程完全由模型在搜索各种完成任务的策略后自主规划决定。此处摘取 OpenAI 官网有关 O3 的发布资料中图像推理任务示例进行展示。该示例中，用户的输入图像仅为一张较为粗糙的手持景点导览表的照片，需求是为用户做接下来的游览规划。O3 在接到需求后便进入推理模式，在推理的过程中调用工具对图片进行裁剪、缩放和识别，根据操作结果进一步规划下一步动作，最终经过 2 分 49 秒的思考后，输出了一份完整的游览行程安排。

O3 的惊艳表现让研究者再一次审视当前大模型发展进度与实现 AGI 之间的距离。虽然 O3 在多模态推理和工具调用等方面表现优异，但是其在文本写作、编码等领域表现相对较弱，且幻觉现象更为严重，依然不能达到通用人工智能的标准，不过，O3 的成功或预示了一条通往 AGI 的可能路径。

MCoT 在投研中的应用初探：自动化技术分析

MCoT 方法让大模型能更加聪明的基于图片思考和行动，如何将其与投研工作相结合？投研流程中，股票 K 线图是重要的图像类信息载体，其中完整体现了股票的交易信息，且 K 线走势形态的背后也隐含了大量可供技术分析的逻辑，与多模态推理的应用场景不谋而合。因此自然的想法即利用大模型的图像推理能力，构建一个大模型自动化技术分析应用。

O3 在技术分析任务中的表现

本节首先尝试 O3 在技术分析任务中的表现。以包含股票 K 线数据的手机截图为例，将截图不作处理直接上传，并以朴素的语言为大模型设定任务如下。

接收任务后，O3 模型开启了思考模式，思考的第一步，大模型首先对图像建立了感知，并对图像的尺寸和主要内容在图像中所处位置的坐标进行了估算。

在估算得到 K 线图主要区域所处位置对应的坐标后，O3 接着调用 Python 工具对图像进行裁剪，保留 K 线图的区域。得到裁剪后的图像后，O3 进一步确认了裁剪后图像的尺寸，并建立了 K 线图日期、价格轴和图像像素坐标之间的对应关系，并初步规划了需要在图像上进行的标注内容。

接着，O3 按照规划标注内容，调用 Python 工具在图像上绘制了支撑/压力线和趋势线。可以发现，虽标注位置并非完全精确，但整体标注符合直观判断，较为清晰完整。

同时，O3 写代码的过程也是全透明的，可以在其思维链中手动点击显示。可以发现，O3 导入了 PIL、matplotlib 等 Python 绘图库在图片上进行划线和标注文字的操作，代码整体编写规范，可直接运行。

最终，O3 模型完成了以上的图片操作后，在最终回答中生成了一份完整的技术分析报告。可以发现，技术报告虽篇幅不长，但结构清晰，分析有理有据，且与推理过程中 K 线标注呼应，最后给出了未来走势判断和操作建议，总体效果较优。

GPT-Kline：全自动技术分析流程的手动实现

虽然 O3 模型能顺利完成技术分析的任务，但仍存在以下潜在问题： 1、朴素的提示词无法让 O3 稳定完成标准化的分析流程，结果受模型随机性影响较大； 2、模型单次输出内容有限，因此技术指标标注较为单一、报告内容篇幅较短； 3、 OpenAI 的 O3 模型使用门槛较高，受多重因素影响较大。因此本节拟通过调用多模态大模型实现基于 MCoT 的全自动技术分析流程，手动构建一个专用于技术分析的专业版 O3，取名为 GPT-Kline。

模型选择

为完成该目标，选用的大模型至少需具备以下两个能力： 1、多模态输入：接收并感知图像； 2、工具调用：可调用外部工具与图像进行交互。截至 2025 年 5 月，对市面上可供调用的标杆大模型能力进行总结对比如下。盘点发现，具备以上两个能力，且 API 使用无较高限制的模型主要有 OpenAI 的 GPT-4o 和 GPT-4.1 模型，Google 的 Gemini-2.5-Pro 和 Gemini-2.5-Flash 模型，以及豆包的深度思考模型 Doubao-1.5-thinking-pro 和视觉模型 Doubao-vision-pro。

工具调用

为使模型进行真正基于图像的多模态推理，本节为大模型设计一系列与图像进行交互的工具供大模型自主调用，让大模型具备画图、标注的能力。大模型进行工具调用的流程分为以下几步： 1、用户为大模型提供封装好的工具，以 json 格式传入工具的名称、调用时需要指定的参数以及针对工具、参数的详细解释； 2、模型接收工具和需求后，自主决定是否需要调用工具以完成任务。如需调用工具，则大模型生成调用工具的指令，即调用工具的名称以及参数； 3、用户端按照大模型调用工具的指令实际执行工具底层代码； 4、用户端将工具执行完成后的结果返回大模型； 5、大模型接收工具执行结果，返回最终答复。

针对股票 K 线图分析场景，本节为大模型设计了多个工具，包括绘制 K 线图、在 K 线图上标注直线、标注强调标志、高亮背景区域等。以下以绘制 K 线图工具为例进行展示，该工具实现功能为，输入一个股票代码以及起止时间，绘制出对应的 K 线图图像。在调用大模型时 tools 字段内传入的 json 对象示例如下。该 json 对象需按照一定规范撰写，对函数的完整定义需包括名称、描述、以及参数列表中各参数的名称、类型和描述。

流程设计

完成模型选择和工具设计后，即可开始着手设计 MCoT 流程，完成自动化技术分析的任务。本节为大模型设计了指令输入、读取数据、绘制图像、图像分析、图像标注、输出报告的技术分析全流程，结合工具调用让大模型自主与图像进行交互，在整个流程中，实时将图像操作结果给予大模型反馈，并保留该流程中所有对话记忆。

应用封装

完成全自动技术分析流程构造后，为方便用户使用，本节基于 Gradio 设计了一套网页端应用，实现方便的人机交互和结果展示。网页端界面示例如下，网页端目前提供两种分析模式，其一为手动选择股票代码和 K 线图起止日期，其二为通过自然语言指令输入任务需求。界面主体部分分为左右两栏，左边可实时显示当前经大模型标注的 K 线图，右边可实时显示大模型的分析过程。

结果

模型对比

上一节对当前可用模型进行盘点梳理，本节首先对各模型在 K 线图像标注任务中的表现进行测试对比。统一设定分析个股为贵州茅台，K 线起止日期为 2025-01-01 至 2025-05-16，各模型 K 线标注完成后结果如下。

对比各模型标注结果，发现 OpenAI 的模型普遍较为“消极”，在 K 线图上进行少量标注后即结束分析，且标注位置存在偏差；豆包系列模型虽标注较为丰富，但标注内容偏差较大，如支撑位、压力位标注位置与 K 线图实际走势关联较低，还存在部分压力位支撑位混淆的情况。另外，测试时还发现豆包系列模型无法同时进行工具调用和文本输出，指令跟随效果较不稳定，这也就意味着如果想要大模型进行标注，则无法了解其标注逻辑和对应解释，而如果想看大模型对于标注的分析逻辑，则最终大模型不会调用工具进行绘制。

全自动技术分析流程展示

根据上一小节对比结果，权衡各方面表现，Google 的 Gemini 2.5 系列模型或是表现相对更优的选择。本节以效果优异且速度较快成本较低的 Gemini 2.5 Flash 模型为例，展示其全自动技术分析流程。

Step1 & 2：绘制 K 线，初步分析

可以发现，K 线图绘制无误，模型对于 K 线图的初步认知也较为准确，包括正确识别出了 K 线频率、区间，并且建立了 K 线图与交易日期、股票价格之间的关联。在该步骤中大模型将 K 线走势分为了几个子区间，并进行了初步的分析。

Step3：技术指标标注

对 K 线图做完初步分析后，大模型紧接着计划调用工具在图像上进行标注。首先调用绘制直线的工具在 K 线图上标注支撑线/压力线。

可以发现，大模型识别了中期及长期的支撑/压力线，并识别到了中期关键的阻力位向支撑位转化的价格线，共绘制了三条横线。思考过程可结合 K 线图和价格数据进行有理有据的分析，最终输出绘图指令决策，整体效果较优。标注完成后的 K 线图如下所示，整体标注结果清晰准确，且与大模型思考逻辑保持一致。

大模型识别出了三个关键技术形态的 K线组合，每一条K线都可精确到其具体日期和价格。以识别出的第一个技术形态“晨星形态”为例，K 线图标注结果如下。可以发现，K 线图中 2 月 5 日至 2 月 7 日的三根 K 线的确组成了一个经典的“晨星形态”，大模型在三根 K 线的上下标注出了强调符号，准确无误。

可以发现，大模型共标注出 4 段单边行情，一段震荡行情，其对于区间的划分较为精确，每段单边区间的起止日期均为最高、最低价格出现日期，震荡行情的日期区间和价格边界也与 K 线图精确匹配。

Step4：生成技术分析报告

完成标注过程后，大模型最终输出一份完整技术分析报告。报告分为 4 部分，分别为基本信息、走势复盘、走势预测和投资建议。

总结

本研究对多模态大模型的推理能力及其在投研中的应用进行了深入探索。多模态思维链（MCoT）是近期多模态领域炙手可热的研究方向，其将大模型的多模态与推理能力相结合，大大提升了大模型应对复杂多模态任务时的表现。本研究尝试将 MCoT 应用于投研中 K 线技术分析场景，构建了智能化、自动化的技术分析平台 GPT-Kline，实现了从 K 线绘图、走势分析、指标标注到报告输出的技术分析全流程自动化，并构建了网页端方便直观的用户交互入口。测试结果显示，GPT-Kline 能基于 K 线图像进行准确识别和深入推理，技术分析全流程中能实现可靠的走势分析、精准的技术指标及形态标注、逻辑连贯的技术分析报告输出。从 LLMs 到 MLLMs，从 CoT 到 MCoT，多模态协同是大模型通往通用人工智能的必经之路。这就要求大模型不能仅仅是大语言模型，而需成为多模态全能的通才。早期计算机视觉领域的蓬勃发展为大模型带来了感知图片的能力，而近期思维链技巧的迅速崛起则为大模型提供了缜密的逻辑推理思维。多模态思维链 MCoT 将两者相结合，使大模型从简单的 “感知理解图片”转为“基于图片思考”，进一步拓展了多模态大模型处理复杂任务的能力边界。OpenAI 于 2025 年 4 月上线“满血版”O3 模型，展示了惊艳的图片推理能力，或是通用人工智能的缩影。

本研究初探 MCoT 在投研中的应用场景，首先尝试将 O3 模型用于自动化技术分析。K 线图和技术分析符合多模态、逻辑推理的特征，是完美匹配 MCoT 能力圈的应用场景之一。本研究对 MCoT 在基于 K 线图进行技术分析中的应用进行初步探索，首先尝试将 O3 模型应用于技术分析。结果表明，O3 模型能够完成完整的技术分析流程，包括对粗糙的 K 线图像进行裁剪、缩放等灵活预处理，并在图像上进行简单标注，最终输出技术分析观点。O3 模型展现出强大的思考规划、工具使用能力，可以与图片多步交互进行多模态推理，不过依然存在输出稳定性弱、内容有限以及使用门槛较高的潜在问题。本研究进一步构建了 GPT-Kline，实现了智能化、自动化的技术分析平台。本研究将 MCoT 与大模型的工具调用能力相结合，进一步构建专用于 K 线技术分析的专业版 O3 模型，称作 GPT-Kline。研究为其设计了画图分析、指标标注、报告撰写的自动化技术分析全流程，并基于 Gradio 构建了网页端界面，实现了方便直观的用户交互。测试表明，GPT-Kline 能实现可靠的形态走势分析，基于多模态推理在 K 线图上进行技术指标或形态的精准标注，并输出和思考过程、标注结果一致的技术分析报告。同时用户界面可实时显示标注图像和思考内容，操作逻辑简单，结果展示较为直观。本研究依然存在以下未尽之处： 1、当前 GPT-Kline 仅支持 A 股 K 线技术分析，后续可提供多资产品类数据接口以支持各类资产的技术分析支持； 2、 GPT-Kline 在长周期 K 线图中的技术分析能力有待探索。当前模型主要基于日 K 线进行技术分析，不同频率的 K 线图分析尚未支持； 3、多模态推理能应对许多复杂的多模态任务，其在投研中的应用潜力较大，本研究对技术分析的场景进行了深入探索，其余场景中的应用潜力有待尝试。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）