多模态大模型技术原理分析

多模态大模型技术原理分析

最佳答案 匿名用户编辑于2024/01/12 09:34

接下来从算法模型、算力 和数据三方面对多模态大模型的技术原理进行深入分析。

1.算法方面,多模态大模型技术壁垒更高,可拓展性更强

自然语言类大模型的训练是对不同文字信息编解码的过程。自然语言类大模型的训 练数据类型较为单一、组织方式比较有规律性。在语句的分析中,标点符号、空格是 AI天然的可识别分隔符,可简单快速的识别不同语句。其次,在字词的属性(主谓 宾)等较为固定的情况下,语句中的语义信息的提取和识别有规律可循。将标点符 号、不同属性的字词编码,根据其在文中的作用对编码反复进行排列组合的训练即 可以得到自然语言类的大模型。

多模态大模型开发的难度更大,技术壁垒更高。与自然语言类大模型相比,多模态 大模型需要对多种类型数据进行编码、配对、拟合,训练过程更加复杂。在“文字图像”的对照训练的过程中,首先通过分别解构文字和图像的内容,将各自内容中 的单一元素抽象出来,单独编码;然后再对文字和图像不同编码间建立一一映射的 关系,最后得到的“文字-图像”的编码配对组合即是多模态模型的雏形。对图像类 数据的编解码难度更大。图像数据是大量像素排列组合而成的,不仅单个像素的固 定属性难以确定,其排列组合的方式也无规律可循。总体而言,多模态大模型需要 处理的数据类型更多、开发难度更大、技术壁垒更高。

多模态大模型的拓展性较好。多模态大模型采用多种类型数据的编码配对拟合的方 法训练得到。除了“文字-图像”两种类型的数据可以建立编码配对组合外,我们也 可以建立类似“图像-音频-文字”等多种类型数据间的编码配对组合,从而训练出通 用性更强、应用场景更丰富的多模态大模型。谷歌在2023年3月发布的Palm-E多模态大模型的训练数据不仅包括文字、图像、语音类数据,还包括三维空间状态和感 知数据,除了具备一般语言来大模型的能力外,还能执行视觉问答、感知推理、机器 操作等复杂的任务。我们认为,多模态大模型可通过增加训练数据类型,打造出交 互方式更多、生成内容更丰富以及更加泛化的能力,可拓展的应用场景更加丰富。

OpenAI已推出多款多模态大模型,并且开放了API。OpenAI已经开发的多模态大模 型包括可识别图像大模型GPT-4、文生图模型DALL∙E 2、以及语音转文字模型 Whisper。近期,以上多模态大模型的API接口陆续开放供程序开放人员调用。在不 同场景中,传统软件厂商在既有软件产品上调用多模态大模型的API进行二次开发, 可有效提升其产品的智能化水平和用户体验。我们判断,OpenAI的多模态大模型在 开放API接口后,其在各场景的渗透有望呈现出加速和扩散的趋势,推动不同应用领 域IT产品的智能化升级。GPT4、DALL∙E 2和Whisper模型的具体介绍如下: (1)GPT-4:2023年3月,OpenAI推出了GPT-4多模态模型并开放了API接口,不 仅在对话的准确性、语言丰富性以及长文本生成能力上较GPT-3.5有较大提升,还可 识别、理解图像类的数据,并根据图像内容与用户进行互动问答。我们认为,相较于 ChatGPT自然语言类模型,GPT-4多模态模型与人类可交互的信息类型更多、信息 量更大、通用性更强、应用场景更加广阔。 (2)DALL∙E 2:DALL∙E大模型是OpenAI于2021年1月公布的产品,并于2022年4 推出第二代,可根据自然语言的描述创作高质量的图像。DALL∙E大模型的文生图功 能的训练过程是将图像的特征提取后抽象为一组编码,将其与文字的编码建立一一 映射的关系。在推理阶段,DALL∙E大模型可根据用户给的文字提示词,通过自回归 算法或扩散算法,推演出图片的编码,将编码重新组合后得到最终的图片。2022年 11月,OpenAI将DALL∙E 2的API开放供第三方调用。 (3)Whisper:Whisper大模型是OpenAI于2021年9月推出的产品,可将语音信息 转换为文字信息。其可实现多语言、多方言以及嘈杂背景音环境下的语音转换,识别和转换的准确率较高。2023年3月1日,OpenAI宣布开放Whisper大模型的API,供 程序开放人员调用。

谷歌的Palm-E大模型可用于机器操作。2023年3月,谷歌和柏林工业大学共同发表 论文《PaLM-E: An Embodied Multimodal Language Model》,对其已开发的PaLME多模态大模型的训练方法、训练环境及通用化效果进行了详细阐述。拥有的5620亿 参数的PaLM-E大模型是在语言类模型PaLM(5400亿参数)和视觉类模型ViT(220 亿参数)的基础上开发的。通过在预训练的语言类大模型中嵌入图像、状态、感知等 多类型数据,PaLM-E模型不仅具备通用化语言能力,还能执行视觉问答、感知推理、 机器操作等复杂的任务。相较于自然语言类AI模型,PaLM-E多模态模型具备的能力 得到了很大程度的提升,其功能拓展如下: (1)机器人操作:嵌入PaLM-E模型的机器人手臂可以执行人类给出的语音指令。 (2)空间感知:PaLM-E模型可以识别三维空间的物体并根据人类指令给予实现目 标的动作规划。 (3)视觉问答:根据图像内容,PaLM-E可以和人类进行自由对话。 (4)人机对话:PaLM-E可应对较多话题的日常交流。

2023年5月,谷歌召开2023年I/O开发者大会,发布最新大语言模型PaLM 2,融入AI 能力的搜索引擎、升级版聊天机器人Bard和Workspace中的AI工具包Duet AI等。在 2023年I/O开发者大会上,谷歌推出了最新一代大语言模型PaLM 2,其基于 Pathways架构,使用TPU v4和JAX框架训练,在高级推理任务,包括代码和数学, 分类和问答,翻译和多语言能力,以及自然语言生成方面都比前一代PaLM大模型表 现得更好。我们认为,此次谷歌发布大模型并导入旗下产品,有助于谷歌增强与其 它生成式AI大模型厂商竞争的能力,展示了谷歌在人工智能领域的强大创新能力和 产品化落地能力。

Meta公司的ImageBind模型融合了6种类型的训练数据。2023年5月,Meta公司推 出的多模态大模型ImageBind融合了文本、图像/视频、音频、热量、空间深度、三维 惯性(位置和运动)数据。其以某一物体的视觉类数据为核心,设置了多种传感器搜 集对应的声音、3维形状、热量以及运动数据。ImageBind的训练是通过将各种类型 的数据在多维向量空间中建立一一映射关系,使其具备跨模态的能力,具体包括: (1)多模态信息转换:根据单一类型的信息,生成对应的多种类型的信息。例如, 根据火车汽笛声,即可生成多张火车的图像,或是火车在某一场景中的空间深度信 息,或是火车鸣笛的情境描述文字。 (2)组合信息转换:在输入两种不同类型的信息进行嵌入和叠加后,可智能化提取 其组合信息。例如,将一张小鸟的图片数据和一段摩托车的音频数据输入到 ImageBind后,可自动生成多张摩托车骑行时小鸟飞翔的图像。

国内的多模态大模型主要集中于文字和图像信息的转换。当前,国内厂商推出的多 模态大模型多以文生图或图像描述生成文字为主等。与海外相比,国内多模态大模 型融合的数据类型较少,应用场景有限,通用性有待提升。不同厂商有不同的自身 技术优势及数据积累领域,因此不同多模态模型在不同细分领域各有优劣。典型例 如百度在搜索领域、阿里巴巴在电商领域、商汤在视觉领域均有其独特积累及数据, 在这样的技术调教及数据喂养下,生成的多模态大模型自然也各有特点。

在文生图多模态大模型领域,百度文心ERNIE-ViLG 2.0模型已具备较强竞争力。百 度文心ERNIE-ViLG 2.0模型通过引入基于时间步的混合降噪专家网络,让模型在不 同的生成阶段选择不同的“降噪专家”,从而提升生成图像的精细度。在提升图文一 致性方面,该模型通过视觉、语言等多源知识指引扩散模型学习,强化文图生成扩 散模型对于语义的精确理解,以提升生成图像的可控性和语义一致性。在图文相关 性和图像保真度两个维度的人工评估上,ERNIE-ViLG 2.0相对DALL-E 2 和Stable Diffusion等模型已具有一定优势。

2.数据层面,多模态大模型需要处理的数据量庞大、数据类型多样

多模态大模型的训练数据量庞大、数据类型多样,需要大数据产品的支持。从传统 AI模型向多模态大模型发展的过程中,数据的计算、分析、转换和存储方式也发生着 较大变化。过去识别类AI模型(物体识别、人脸识别)训练数据的类型较为单一且数 据量较小,多数情况下传统的集中式数据库即可满足训练数据的预处理、存储和分 析需求。在自然语言类大模型出现后,训练数据量快速增长到TB级别,导致其部分 场景中的数据训练需要采用分布式架构的数据平台产品才能解决。多模态大模型训 练的数据量庞大、数据类型多样,需要分布式架构下的大数据产品才能满足其数据 训练的要求。我们认为,未来分布式大数据软件产品将在多模态大模型的开发过程 中扮演重要的作用。

分布式大数据平台较好的满足多源、异构的数据处理需求。分布式大数据平台是一 个集数据接入、处理、存储、查询检索、分析挖掘等为一体的平台。而数据库是按照 数据结构来组织、存储和管理数据的仓库。在异构的分布式数据库中,不同的节点 可采用不同的数据模型、数据管理工具、操作系统和硬件。各子节点通过应用程序 接口、全局模式和联邦计算等方式实现不同数据类型的信息共享及融合分析。总体 而言,分布式大数据平台具有以下优势: (1)单机硬件性能要求较低,扩容成本较低:在分布式架构中,软件平台可搭载于 普通的PC服务器上,摆脱了对小型机、高端存储等高价格硬件设备的依赖,扩容的 成本较低。 (2)海量数据处理能力,扩容过程便捷:分布式架构采用多台服务器,存储和计算 资源天然比集中式架构的单台服务器要多,扩容便捷,可扩展性强。 (3)多源数据融合处理和分析能力:不同节点的数据平台上可存储和计算不同类型 的数据,各节点数据处理和分析的结果汇总和集成在控制节点后可实现较好的融合 分析。

向量数据库可满足多模态大模型中较多的向量相似性搜索需求。多模态大模型和用 户交互的信息往往包含大量的非结构化的数据。例如,用户将图片输入到GPT-4后, 就图片信息进行问答。在这一过程中,原始的图像(由像素组成)需要转化成为向量 数据才能被多模态大模型识别和理解,之后这一组向量数据需要遍历庞大的神经网 络,搜索与之对应的另一组向量数据后才能生成用户想要的文字。在多模态大模型 中,向量搜索的过程往往耗时较长,可能会影响到即刻需要得到内容生成的用户体 验。而向量数据库通过ANN(Approximate Nearest Neighbor)算法给不同的向量数 据构建索引,有效提升搜索效率,缩短生成内容的反馈时间。

2023年5月,星环科技发布向量数据库产品Transwarp Hippo。Hippo主要用于AI领 域,支持快速高效的数据存储和检索以及管理向量式数据集,能够高效地解决向量 相似度检索、高密度向量聚类等常见的AI问题。与开源的向量数据库不同,Hippo具 备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数 据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能很好地满足企业 针对海量向量数据的高实时性查询、检索、召回等场景。 我国在分布式大数据平台领域与海外厂商的性能、生态方面的差距较小。从技术演 进角度而言,我国分布式数据平台技术与海外公司发展历史相当。基于Hadoop等开 源生态,国产分布式大数据平台快速开发和迭代,且在金融、公共部门、能源等行业 商业化落地过程中持续打磨产品,性能与海外竞品差距较小。以星环科技TDH为代 表的大数据产品不仅凭借分布式架构的优势对传统数据库Oracle、IBM DB2以及 Teradata等传统数据库实现了较好的替代,还以较高的性价比和安全性实现了 Ealstic Search、CDP等海外分布式架构数据产品的替代。

随着多模态大模型的训练和应用的增多,国产大数据产品和向量数据库有望快速增 长。分布式大数据产品拥有的海量、异构、多源数据的处理能力,以及向量数据库的 高效数据搜索能力,在多模态大模型的训练和推理中有较好的应用前景。另一方面, 大数据是新兴技术,发展时间较短,国产大数据产品和海外竞品的差距较小。在大 数据领域,星环科技技术积累深厚、技术原创性强,已实现对关键组件和核心功能 的自主研发,有望受益于多模态大模型的快速渗透。我们认为,在各科技公司对于 多模态大模型持续研发投入,以及AI大模型在各行业加速渗透的趋势下,国产大数 据产品有望迎来发展机遇,实现快速成长。

3.算力层面,海量和多源的数据处理需要更大的算力支持

表达同级别的信息量,非结构化比结构化所需的数据量更大。同一数据大小情况下, 不同数据类型所包含的信息量不同。一般而言,文字类的数据组织方式较为简单, 同级别的数据量可包含的信息量较大,例如1MB的数据量可包含500页的文字内容。 与之相比,图像、音频、网页等非结构化数据组织方式更为复杂。一张图片是由成千 上万个像素点组成;音频的组织方式是由一系列的数据帧组成。同级别数据量的非 结构化数据包含的信息量较小,例如1MB的数据只包含1张2048X1536像素的JPEG 格式图片或1分钟MP3格式的音频。因此,相较于训练数据为纯文字的自然语言类大 模型,多模态大模型的训练过程若要包含相同量级的信息,其所需的非结构化数据 的数量更大。

OpenAI的大模型生成图像的成本高于生成文字的成本。OpenAI的自然语言大模型 的收费标准是0.002-0.012美元/1000 tokens。Tokens是包括了单词、标点符号在内 的字符,因此可以简单理解为单个文字。与之相比,多模态大模型DALL∙E生成图片 的价格为0.016-0.02美元/张。从用户需求角度,用户与平台单词对话所需生成内容 是文字信息在千个单词的级别,是图片信息则在1-4张图片之间。因此,单次对话对 于图像信息生成所需的成本要高于文字信息生成的成本。我们认为,多模态大模型 需要处理的非结构化数据较多,相较于自然语言类模型,在训练和推理阶段消耗的 成本更大,所需的算力支持更高。

英伟达AI芯片每秒钟推理图像类模型(3D U-Net)远低于自然语言类模型(BERT)。 针对不同的AI模型,英伟达的AI芯片推理计算的性能不同。以A100为例,其对BERT 自然语言模型推理运算性能为每秒1828次,而对3D U-Net医疗影像模型的推理运算性能为每秒4次。H100在采用更先进制程芯片,矩阵运算性能优化的情况下,其推理 运算性能有较大提升。我们认为,多模态大模型所需处理的数据类型更多、算法更 复杂的情况下,在应用和推理阶段对算力的消耗也更大。未来,随着多模态大模型 开发量和应用量的增加,AI芯片的需求有望加速增长。

英伟达H100对大模型运算的性能较A100提升较大。2022年3月,英伟达推出Hopper 架构的新品H100,浮点数算力较A100有2.6倍提升,整数算力较A100有4.8倍提升。 H100的算力提升不仅通过采用4nm先进制程的方式从物理层面提升晶体管密度芯 片,在软件层面还针对大模型设计了Transformer引擎,有针对性的提升大模型的算 力水平。在GPT-3大模型训练任务中,H100的速度可以达到A100的4倍。2023年3 月,英伟达又推出了H100 NVL产品。其通过拓展GPU内存带宽,升级GPU和GPU 互联技术NVLink,将产品在大型计算集群中的性能进一步提升。在GPT-3大模型训 练任务中,搭载H100 NVL的AI服务器的速度达到了搭载A100的服务器12倍的效果。

国产AI芯片已经追赶上英伟达Ampere架构GPU的水平。国产高端AI芯片在过去几 年性能有了较大提升,以华为昇腾910和寒武纪思元370为代表的国产AI芯片已经追 赶上英伟达Ampere架构下的AI芯片的性能,但距离其最新一代H100仍有一定差距。 我们判断,随着国产AI芯片与英伟达等海外竞品性能差距逐渐缩小,AI芯片国产替代 范围有望扩大。另一方面,在芯片制造环节,中国大陆晶圆厂的先进制程芯片规模 化量产能力与国际一流厂商仍有一定差距。未来,AI芯片国产替代的节奏仍取决于 美国对华实施高端芯片出口管制政策的变化以及芯片制造产业链自主可控建设的进 展。

参考报告

人工智能行业深度报告:多模态大模型方向确定,从通用到垂直场景智能化升级的统一和差异.pdf

人工智能行业深度报告:多模态大模型方向确定,从通用到垂直场景智能化升级的统一和差异。多模态大模型是AI大模型的发展方向,也是AI厂商竞争的关键领域。相较于自然语言类模型,多模态模型在训练阶段融合了文字、图像、三维物体等多维度数据的训练,可交互的信息类型较多,通用性得到了大大增强,可应用的场景有较大拓展。我们判断,多模态大模型的技术迭代、产品设计和商业模式的探索将成为下一阶段各厂商竞争的关键。多模态大模型融合了多种类型的数据,技术壁垒高、消耗算力大。多模态大模型给AI行业带来的变革如下:(1)算法方面:多模态大模型需要对多种类型数据进行编码、配对、拟合,训练过程更加复杂、技术壁垒更高。(2)数据...

查看详情
相关报告
我来回答