多模态大模型技术原理分析

提问时间：2024/01/12
浏览次数：339
提问者：匿名用户
举报
分享微信 QQ 微博

多模态大模型技术原理分析

标签

多模态大模型

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/01/12 09:34

接下来从算法模型、算力和数据三方面对多模态大模型的技术原理进行深入分析。

1.算法方面，多模态大模型技术壁垒更高，可拓展性更强

自然语言类大模型的训练是对不同文字信息编解码的过程。自然语言类大模型的训练数据类型较为单一、组织方式比较有规律性。在语句的分析中，标点符号、空格是 AI天然的可识别分隔符，可简单快速的识别不同语句。其次，在字词的属性（主谓宾）等较为固定的情况下，语句中的语义信息的提取和识别有规律可循。将标点符号、不同属性的字词编码，根据其在文中的作用对编码反复进行排列组合的训练即可以得到自然语言类的大模型。

多模态大模型开发的难度更大，技术壁垒更高。与自然语言类大模型相比，多模态大模型需要对多种类型数据进行编码、配对、拟合，训练过程更加复杂。在“文字图像”的对照训练的过程中，首先通过分别解构文字和图像的内容，将各自内容中的单一元素抽象出来，单独编码；然后再对文字和图像不同编码间建立一一映射的关系，最后得到的“文字-图像”的编码配对组合即是多模态模型的雏形。对图像类数据的编解码难度更大。图像数据是大量像素排列组合而成的，不仅单个像素的固定属性难以确定，其排列组合的方式也无规律可循。总体而言，多模态大模型需要处理的数据类型更多、开发难度更大、技术壁垒更高。

多模态大模型的拓展性较好。多模态大模型采用多种类型数据的编码配对拟合的方法训练得到。除了“文字-图像”两种类型的数据可以建立编码配对组合外，我们也可以建立类似“图像-音频-文字”等多种类型数据间的编码配对组合，从而训练出通用性更强、应用场景更丰富的多模态大模型。谷歌在2023年3月发布的Palm-E多模态大模型的训练数据不仅包括文字、图像、语音类数据，还包括三维空间状态和感知数据，除了具备一般语言来大模型的能力外，还能执行视觉问答、感知推理、机器操作等复杂的任务。我们认为，多模态大模型可通过增加训练数据类型，打造出交互方式更多、生成内容更丰富以及更加泛化的能力，可拓展的应用场景更加丰富。

OpenAI已推出多款多模态大模型，并且开放了API。OpenAI已经开发的多模态大模型包括可识别图像大模型GPT-4、文生图模型DALL∙E 2、以及语音转文字模型 Whisper。近期，以上多模态大模型的API接口陆续开放供程序开放人员调用。在不同场景中，传统软件厂商在既有软件产品上调用多模态大模型的API进行二次开发，可有效提升其产品的智能化水平和用户体验。我们判断，OpenAI的多模态大模型在开放API接口后，其在各场景的渗透有望呈现出加速和扩散的趋势，推动不同应用领域IT产品的智能化升级。GPT4、DALL∙E 2和Whisper模型的具体介绍如下：（1）GPT-4：2023年3月，OpenAI推出了GPT-4多模态模型并开放了API接口，不仅在对话的准确性、语言丰富性以及长文本生成能力上较GPT-3.5有较大提升，还可识别、理解图像类的数据，并根据图像内容与用户进行互动问答。我们认为，相较于 ChatGPT自然语言类模型，GPT-4多模态模型与人类可交互的信息类型更多、信息量更大、通用性更强、应用场景更加广阔。（2）DALL∙E 2：DALL∙E大模型是OpenAI于2021年1月公布的产品，并于2022年4 推出第二代，可根据自然语言的描述创作高质量的图像。DALL∙E大模型的文生图功能的训练过程是将图像的特征提取后抽象为一组编码，将其与文字的编码建立一一映射的关系。在推理阶段，DALL∙E大模型可根据用户给的文字提示词，通过自回归算法或扩散算法，推演出图片的编码，将编码重新组合后得到最终的图片。2022年 11月，OpenAI将DALL∙E 2的API开放供第三方调用。（3）Whisper：Whisper大模型是OpenAI于2021年9月推出的产品，可将语音信息转换为文字信息。其可实现多语言、多方言以及嘈杂背景音环境下的语音转换，识别和转换的准确率较高。2023年3月1日，OpenAI宣布开放Whisper大模型的API，供程序开放人员调用。

谷歌的Palm-E大模型可用于机器操作。2023年3月，谷歌和柏林工业大学共同发表论文《PaLM-E: An Embodied Multimodal Language Model》，对其已开发的PaLME多模态大模型的训练方法、训练环境及通用化效果进行了详细阐述。拥有的5620亿参数的PaLM-E大模型是在语言类模型PaLM（5400亿参数）和视觉类模型ViT（220 亿参数）的基础上开发的。通过在预训练的语言类大模型中嵌入图像、状态、感知等多类型数据，PaLM-E模型不仅具备通用化语言能力，还能执行视觉问答、感知推理、机器操作等复杂的任务。相较于自然语言类AI模型，PaLM-E多模态模型具备的能力得到了很大程度的提升，其功能拓展如下：（1）机器人操作：嵌入PaLM-E模型的机器人手臂可以执行人类给出的语音指令。（2）空间感知：PaLM-E模型可以识别三维空间的物体并根据人类指令给予实现目标的动作规划。（3）视觉问答：根据图像内容，PaLM-E可以和人类进行自由对话。（4）人机对话：PaLM-E可应对较多话题的日常交流。

2023年5月，谷歌召开2023年I/O开发者大会，发布最新大语言模型PaLM 2，融入AI 能力的搜索引擎、升级版聊天机器人Bard和Workspace中的AI工具包Duet AI等。在 2023年I/O开发者大会上，谷歌推出了最新一代大语言模型PaLM 2，其基于 Pathways架构，使用TPU v4和JAX框架训练，在高级推理任务，包括代码和数学，分类和问答，翻译和多语言能力，以及自然语言生成方面都比前一代PaLM大模型表现得更好。我们认为，此次谷歌发布大模型并导入旗下产品，有助于谷歌增强与其它生成式AI大模型厂商竞争的能力，展示了谷歌在人工智能领域的强大创新能力和产品化落地能力。

Meta公司的ImageBind模型融合了6种类型的训练数据。2023年5月，Meta公司推出的多模态大模型ImageBind融合了文本、图像/视频、音频、热量、空间深度、三维惯性（位置和运动）数据。其以某一物体的视觉类数据为核心，设置了多种传感器搜集对应的声音、3维形状、热量以及运动数据。ImageBind的训练是通过将各种类型的数据在多维向量空间中建立一一映射关系，使其具备跨模态的能力，具体包括：（1）多模态信息转换：根据单一类型的信息，生成对应的多种类型的信息。例如，根据火车汽笛声，即可生成多张火车的图像，或是火车在某一场景中的空间深度信息，或是火车鸣笛的情境描述文字。（2）组合信息转换：在输入两种不同类型的信息进行嵌入和叠加后，可智能化提取其组合信息。例如，将一张小鸟的图片数据和一段摩托车的音频数据输入到 ImageBind后，可自动生成多张摩托车骑行时小鸟飞翔的图像。

国内的多模态大模型主要集中于文字和图像信息的转换。当前，国内厂商推出的多模态大模型多以文生图或图像描述生成文字为主等。与海外相比，国内多模态大模型融合的数据类型较少，应用场景有限，通用性有待提升。不同厂商有不同的自身技术优势及数据积累领域，因此不同多模态模型在不同细分领域各有优劣。典型例如百度在搜索领域、阿里巴巴在电商领域、商汤在视觉领域均有其独特积累及数据，在这样的技术调教及数据喂养下，生成的多模态大模型自然也各有特点。

在文生图多模态大模型领域，百度文心ERNIE-ViLG 2.0模型已具备较强竞争力。百度文心ERNIE-ViLG 2.0模型通过引入基于时间步的混合降噪专家网络，让模型在不同的生成阶段选择不同的“降噪专家”，从而提升生成图像的精细度。在提升图文一致性方面，该模型通过视觉、语言等多源知识指引扩散模型学习，强化文图生成扩散模型对于语义的精确理解，以提升生成图像的可控性和语义一致性。在图文相关性和图像保真度两个维度的人工评估上，ERNIE-ViLG 2.0相对DALL-E 2 和Stable Diffusion等模型已具有一定优势。

2.数据层面，多模态大模型需要处理的数据量庞大、数据类型多样

多模态大模型的训练数据量庞大、数据类型多样，需要大数据产品的支持。从传统 AI模型向多模态大模型发展的过程中，数据的计算、分析、转换和存储方式也发生着较大变化。过去识别类AI模型（物体识别、人脸识别）训练数据的类型较为单一且数据量较小，多数情况下传统的集中式数据库即可满足训练数据的预处理、存储和分析需求。在自然语言类大模型出现后，训练数据量快速增长到TB级别，导致其部分场景中的数据训练需要采用分布式架构的数据平台产品才能解决。多模态大模型训练的数据量庞大、数据类型多样，需要分布式架构下的大数据产品才能满足其数据训练的要求。我们认为，未来分布式大数据软件产品将在多模态大模型的开发过程中扮演重要的作用。

分布式大数据平台较好的满足多源、异构的数据处理需求。分布式大数据平台是一个集数据接入、处理、存储、查询检索、分析挖掘等为一体的平台。而数据库是按照数据结构来组织、存储和管理数据的仓库。在异构的分布式数据库中，不同的节点可采用不同的数据模型、数据管理工具、操作系统和硬件。各子节点通过应用程序接口、全局模式和联邦计算等方式实现不同数据类型的信息共享及融合分析。总体而言，分布式大数据平台具有以下优势：（1）单机硬件性能要求较低，扩容成本较低：在分布式架构中，软件平台可搭载于普通的PC服务器上，摆脱了对小型机、高端存储等高价格硬件设备的依赖，扩容的成本较低。（2）海量数据处理能力，扩容过程便捷：分布式架构采用多台服务器，存储和计算资源天然比集中式架构的单台服务器要多，扩容便捷，可扩展性强。（3）多源数据融合处理和分析能力：不同节点的数据平台上可存储和计算不同类型的数据，各节点数据处理和分析的结果汇总和集成在控制节点后可实现较好的融合分析。

向量数据库可满足多模态大模型中较多的向量相似性搜索需求。多模态大模型和用户交互的信息往往包含大量的非结构化的数据。例如，用户将图片输入到GPT-4后，就图片信息进行问答。在这一过程中，原始的图像（由像素组成）需要转化成为向量数据才能被多模态大模型识别和理解，之后这一组向量数据需要遍历庞大的神经网络，搜索与之对应的另一组向量数据后才能生成用户想要的文字。在多模态大模型中，向量搜索的过程往往耗时较长，可能会影响到即刻需要得到内容生成的用户体验。而向量数据库通过ANN（Approximate Nearest Neighbor）算法给不同的向量数据构建索引，有效提升搜索效率，缩短生成内容的反馈时间。

2023年5月，星环科技发布向量数据库产品Transwarp Hippo。Hippo主要用于AI领域，支持快速高效的数据存储和检索以及管理向量式数据集，能够高效地解决向量相似度检索、高密度向量聚类等常见的AI问题。与开源的向量数据库不同，Hippo具备高可用、高性能、易拓展等特点，支持多种向量搜索索引，支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能，能很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。我国在分布式大数据平台领域与海外厂商的性能、生态方面的差距较小。从技术演进角度而言，我国分布式数据平台技术与海外公司发展历史相当。基于Hadoop等开源生态，国产分布式大数据平台快速开发和迭代，且在金融、公共部门、能源等行业商业化落地过程中持续打磨产品，性能与海外竞品差距较小。以星环科技TDH为代表的大数据产品不仅凭借分布式架构的优势对传统数据库Oracle、IBM DB2以及 Teradata等传统数据库实现了较好的替代，还以较高的性价比和安全性实现了 Ealstic Search、CDP等海外分布式架构数据产品的替代。

随着多模态大模型的训练和应用的增多，国产大数据产品和向量数据库有望快速增长。分布式大数据产品拥有的海量、异构、多源数据的处理能力，以及向量数据库的高效数据搜索能力，在多模态大模型的训练和推理中有较好的应用前景。另一方面，大数据是新兴技术，发展时间较短，国产大数据产品和海外竞品的差距较小。在大数据领域，星环科技技术积累深厚、技术原创性强，已实现对关键组件和核心功能的自主研发，有望受益于多模态大模型的快速渗透。我们认为，在各科技公司对于多模态大模型持续研发投入，以及AI大模型在各行业加速渗透的趋势下，国产大数据产品有望迎来发展机遇，实现快速成长。

3.算力层面，海量和多源的数据处理需要更大的算力支持

表达同级别的信息量，非结构化比结构化所需的数据量更大。同一数据大小情况下，不同数据类型所包含的信息量不同。一般而言，文字类的数据组织方式较为简单，同级别的数据量可包含的信息量较大，例如1MB的数据量可包含500页的文字内容。与之相比，图像、音频、网页等非结构化数据组织方式更为复杂。一张图片是由成千上万个像素点组成；音频的组织方式是由一系列的数据帧组成。同级别数据量的非结构化数据包含的信息量较小，例如1MB的数据只包含1张2048X1536像素的JPEG 格式图片或1分钟MP3格式的音频。因此，相较于训练数据为纯文字的自然语言类大模型，多模态大模型的训练过程若要包含相同量级的信息，其所需的非结构化数据的数量更大。

OpenAI的大模型生成图像的成本高于生成文字的成本。OpenAI的自然语言大模型的收费标准是0.002-0.012美元/1000 tokens。Tokens是包括了单词、标点符号在内的字符，因此可以简单理解为单个文字。与之相比，多模态大模型DALL∙E生成图片的价格为0.016-0.02美元/张。从用户需求角度，用户与平台单词对话所需生成内容是文字信息在千个单词的级别，是图片信息则在1-4张图片之间。因此，单次对话对于图像信息生成所需的成本要高于文字信息生成的成本。我们认为，多模态大模型需要处理的非结构化数据较多，相较于自然语言类模型，在训练和推理阶段消耗的成本更大，所需的算力支持更高。

英伟达AI芯片每秒钟推理图像类模型（3D U-Net）远低于自然语言类模型（BERT）。针对不同的AI模型，英伟达的AI芯片推理计算的性能不同。以A100为例，其对BERT 自然语言模型推理运算性能为每秒1828次，而对3D U-Net医疗影像模型的推理运算性能为每秒4次。H100在采用更先进制程芯片，矩阵运算性能优化的情况下，其推理运算性能有较大提升。我们认为，多模态大模型所需处理的数据类型更多、算法更复杂的情况下，在应用和推理阶段对算力的消耗也更大。未来，随着多模态大模型开发量和应用量的增加，AI芯片的需求有望加速增长。

英伟达H100对大模型运算的性能较A100提升较大。2022年3月，英伟达推出Hopper 架构的新品H100，浮点数算力较A100有2.6倍提升，整数算力较A100有4.8倍提升。 H100的算力提升不仅通过采用4nm先进制程的方式从物理层面提升晶体管密度芯片，在软件层面还针对大模型设计了Transformer引擎，有针对性的提升大模型的算力水平。在GPT-3大模型训练任务中，H100的速度可以达到A100的4倍。2023年3 月，英伟达又推出了H100 NVL产品。其通过拓展GPU内存带宽，升级GPU和GPU 互联技术NVLink，将产品在大型计算集群中的性能进一步提升。在GPT-3大模型训练任务中，搭载H100 NVL的AI服务器的速度达到了搭载A100的服务器12倍的效果。

国产AI芯片已经追赶上英伟达Ampere架构GPU的水平。国产高端AI芯片在过去几年性能有了较大提升，以华为昇腾910和寒武纪思元370为代表的国产AI芯片已经追赶上英伟达Ampere架构下的AI芯片的性能，但距离其最新一代H100仍有一定差距。我们判断，随着国产AI芯片与英伟达等海外竞品性能差距逐渐缩小，AI芯片国产替代范围有望扩大。另一方面，在芯片制造环节，中国大陆晶圆厂的先进制程芯片规模化量产能力与国际一流厂商仍有一定差距。未来，AI芯片国产替代的节奏仍取决于美国对华实施高端芯片出口管制政策的变化以及芯片制造产业链自主可控建设的进展。

参考报告

人工智能行业深度报告：多模态大模型方向确定，从通用到垂直场景智能化升级的统一和差异.pdf

人工智能行业深度报告：多模态大模型方向确定，从通用到垂直场景智能化升级的统一和差异。多模态大模型是AI大模型的发展方向，也是AI厂商竞争的关键领域。相较于自然语言类模型，多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练，可交互的信息类型较多，通用性得到了大大增强，可应用的场景有较大拓展。我们判断，多模态大模型的技术迭代、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。多模态大模型融合了多种类型的数据，技术壁垒高、消耗算力大。多模态大模型给AI行业带来的变革如下：（1）算法方面：多模态大模型需要对多种类型数据进行编码、配对、拟合，训练过程更加复杂、技术壁垒更高。（2）数据...

查看详情

多模态大模型技术原理分析

1.算法方面，多模态大模型技术壁垒更高，可拓展性更强

2.数据层面，多模态大模型需要处理的数据量庞大、数据类型多样

3.算力层面，海量和多源的数据处理需要更大的算力支持

人工智能行业深度报告：多模态大模型方向确定，从通用到垂直场景智能化升级的统一和差异.pdf

多模态大模型发展现状、评测需求、问题与挑战分析

多模态大模型技术原理分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王