大模型如何基于图片思考?

大模型如何基于图片思考?

最佳答案 匿名用户编辑于2025/06/09 11:44

从 LLM 到 MLLM。

多模态协同是大模型通往通用人工智能(AGI)的必经之路。ChatGPT、DeepSeek 等里 程碑式的大模型一次次的向人类证明,在自然语言处理的任务中,大模型的能力远超人们 想象。然而,想接近 AGI 的圣杯,仅仅作为一个自然语言处理任务的“专家”依然远远不 够。因此,多模态大模型(MLLMs)自然成为 AI 研究的重要方向,致力于将大模型的智能 从文本的单模态泛化至图片、音频等领域,成为多模态智能的“通才”。 典型的多模态大模型架构通常包含三个模块:编码器、连接器以及 LLM,而让多模态大模 型“看得到,听得见”的关键则在于模态编码器。该模块负责将图片、音频等多模态信息 转化为隐状态,经由连接器转化为 LLM 可以理解的视觉 Token,最后与文本模态的信息一 并输入 LLM 生成文本输出。如需生成多模态输出通常需要在 LLM 后额外接入生成器。

计算机视觉(CV)的蓬勃发展是多模态大模型的基石。早期用于图像分类、目标检测等任 务的经典模型多基于卷积神经网络(CNN)构造,如 AlexNet(Krizhevsky 等,2012)、VGG (Simonyan 和 Zisserman,2015)、ResNet(He 等,2016)。直至 2021 年左右,Google 和 OpenAI 先后提出 ViT(Dosovitskiy 等,2020)和 CLIP(Radford 等,2021)模型, 将计算机视觉任务基础架构由 CNN 拓展至 Transformer 架构,并揭示了预训练基座模型 的无限潜力。直至今日,许多多模态大模型的视觉编码器也基于以上两者进行架构。 计算机视觉底层技术的突破和 Scaling Law 下大语言模型能力的不断迭代共同促成了多模 态大模型的飞速发展。下图记载了多模态大模型发展历程中部分代表性模型,其中不乏 GPT-4o、Gemini 等耳熟能详的名字。

提升多模态大模型的表现,不仅需要一双“明亮的眼睛”,更需要一颗“聪慧的大脑”。早 期大语言模型智力的进步主要受益于模型参数量、训练数据量和计算量的指数级增长。而 2024 年 9 月 OpenAI O1 模型的惊艳亮相,则开辟了除“堆参数、堆算力”之外的另一条 道路:通过思维链(Chain of Thought,CoT)和测试阶段扩展(Test Time Scaling,TTS) 提升大模型的推理能力。 CoT 方法(Wei 等,2022)由 Google 团队提出,其核心在于,通过提示引导模型“一步 步思考”可以显著提升模型在复杂任务上的表现。CoT 方法也不仅是一种提示词技巧,其 更重要的应用是与各种 TTS 方法结合,让“思考”成为大模型的内生能力。

TTS 的核心是为大模型测试阶段分配更多的计算资源,公开案例中最具代表性的模型之一 是 DeepSeek-R1(Guo 等,2025)。DeepSeek-R1 模型的训练从预训练的 DeepSeek-V3 基座模型开始,使用大规模强化学习,为模型缜密思考、结果正确、格式一致的那些输出 赋予高奖励,从而引导模型在推理阶段学会生成更长的 CoT,自然而然地增加了其测试时 计算量,提升模型推理表现。

CoT 为大语言模型在复杂任务上的表现带来了很大提升,在多模态领域中也不例外,在 CoT 方法提出后不久,大量研究致力于发掘思维链在多模态任务中的应用,即从 CoT 扩展到 MCoT(Multimodal CoT)。Wang 等(2025)系统总结了自 2022 年底 ChatGPT 发布以来 截至 2025 年 3 月,MCoT 方向的各类研究及里程碑模型,汇总如下。

基于图片进行思维链推理是 MCoT 中重要的分支之一。相比传统的图像识别、分类方法, MCoT 不仅需要让大模型建立对于图片的“感知”,还需要引导大模型对图片进行深入“理 解和思考”。MCoT 的出现让大模型在图像问答任务中的表现突飞猛进,将多模态大模型的 能力边界大大扩展,最先进的多模态推理大模型可以在拍照定位、图片解密等对于人类都 具有挑战性的任务中游刃有余。

进一步,根据大模型思考时的载体可以将各类 MCoT 方法总结为以下两种: 1、 输入文本和图像,基于纯文字进行推理,最终输出答案; 2、 输入文本和图像,基于文字和图像进行推理,最终输出答案。 显而易见,两种方法中后者或许才是真正的“多模态推理”,然而目前大部分多模态推理大 模型的推理过程仍仅基于文字进行。

参考报告

金融工程行业深度研究:GPT_Kline,MCoT与技术分析.pdf

金融工程行业深度研究:GPT_Kline,MCoT与技术分析。多模态推理:从LLMs到MLLMs,从CoT到MCoT。多模态协同是大模型通往通用人工智能的必经之路,这就要求大模型不能仅仅是大语言模型,而需成为多模态全能的通才。早期计算机视觉领域的蓬勃发展为大模型带来了感知图片的能力,而近期思维链技巧的迅速崛起则为大模型提供了缜密的逻辑推理思维。MCoT将两者相结合,使大模型从简单的“感知理解图片”转为“基于图片思考”,进一步拓展了多模态大模型处理复杂任务的能力边界。OpenAI于2025年4月上线“满血版”O3模型,展示了...

查看详情
相关报告
我来回答