Meta四大模型原理与训练方法介绍

提问时间：2024/10/25
浏览次数：189
提问者：匿名用户
举报
分享微信 QQ 微博

Meta四大模型原理与训练方法介绍

标签

Meta

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/10/25 14:11

如果你对该问题感兴趣的话，推荐你看看《计算机行业专题报告：Meta Movie Gen的论文告诉我们什么？》这篇报告，下面是部分摘录的内容，具体请以原报告为准。

1.视频生成模型：创新模型架构实现高效训练

Movie Gen Video 训练过程分为三个主要步骤：低分辨率 T2I（Text to Image 文本到图像）预训练：在低分辨率（256px）图像数据集上进行预训练，让模型学会基本的文本到图像的生成能力，并形成对基础视觉元素的理解。

联合低分辨率图像和视频预训练：通过同时训练文本到图像和文本到视频的任务，模型可以在相同的框架中生成图像和视频，从而共享视觉和时间建模能力，有助于模型在处理时间维度时，更好地捕获视频的运动特征。

高分辨率微调：模型在高质量的视频数据集上进行微调，以提高视频生成的质量。模型逐步提高视频的空间分辨率（从 256px 提升到 768px），并进行针对性的优化，有助于提高生成视频的细节水平和视觉质量，使生成的视频更加逼真、连贯。

创新模型训练架构，TAE+Flow Matching+Transformer 提升训练和推理效率。 Meta 训练了一个单一的时间自动编码器模型（TAE，Temporal Autoencoder）来将图像和视频映射到时空压缩的潜在空间（spatiotemporally compressed latent space）中，使用预训练的文本编码器对输入文本进行编码，以获得文本提示嵌入。Meta 使用流匹配（FM，Flow Matching）训练方法，以采样噪声和用户文本作为输入，最终通过 TAE 解码器将其映射回像素空间并生成图像或视频。过去的主干网络以 DiT（扩散 Transformer）为主，而 Meta 使用了 LLaMa3（Transformer）结构。训练过程对文本提示的处理分为三个部分：

UL2（统一语言学习范式，Unifying Language Learning Paradigms）：可构建一种独立于模型架构以及下游任务类型的预训练策略（自监督目标），可以灵活地适配不同类型的下游任务。使用大量纯文本数据进行训练，提供了强大的文本推理能力。

Long-prompt MetaCLIP：通过对较长文本标题的 MetaCLIP 文本编码器进行微调，将输入文本 token 长度从 77 增加到 256。提供了与视觉对齐的文本表示，有利于跨模态生成。

ByT5（Byte-to-byte Text-to-Text Transfer Transformer）：基于 T5 架构的预训练字节级 Transformer（不再处理 token，而直接作用于文本字节或字符），对噪声的鲁棒性更强，对拼写和发音敏感的任务上表现更好。

硬件与基础设施：使用多达 6144 个 H100 GPU 来训练多模态模型，每个 GPU 都运行在 700W TDP，配备 80GB HBM3，使用 Meta 的 Grand Teton AI 服务器平台进行训练。每个服务器内有 8 个 GPU，通过 NVSwitches 均匀连接。服务器之间的 GPU 通过 400Gbps RoCE RDMA NICs 连接。训练任务由 Meta 的全球规模训练调度程序 MAST 进行调度。

与大语言模型的比较：与大型语言模型（LLM）使用结构化因果注意力掩码来强制 token 的因果性不同，Movie Gen Video 使用的全双向注意力（full bidirectional attention），其核心优势在于其能够双向交互，增强模型对上下文的理解深度。这种机制不仅允许模型在编码器和解码器之间双向流动，而且还能够更精确地聚焦于问题相关的文段部分，从而显著提升了机器理解自然语言的能力。此外，LLaMa3 使用分组查询注意力（GQA）代替多头注意力（MHA），这减少了 K-头和 V-头的数量，从而减少了键（Key）和值（Value）投影的总维度。这不仅减少了 FLOPs 和张量内存大小，还提高了内存带宽利用率。

模型并行方法：LLaMa3 训练分为不同上下文长度的阶段。由于模型规模大、上下文长度极长，需要使用多种并行性来实现高效训练。Meta 采用 3D 并行性来支持模型在参数量、输入 token 和数据集大小三个维度上的扩展，同时允许水平扩展到更多的 GPU。Meta 利用了完全分片的数据并行性、张量并行性、序列并行性和上下文并行性。

TAE 用于将 RGB 像素空间的视频和图像编码，进入时空压缩的潜在空间中学习，通过优化目标函数，提高生成质量和效率。TAE 基于变分自动编码器（VAE，采用变分推断的用于降维、数据压缩和生成的神经网络），通过在 2D 空间卷积后加入 1D 时间卷积，使得模型能够更好地处理视频的时间维度。TAE 将输入的各个时空维度（T 时间、H 高度、W 宽度）压缩 8 倍，从而减少 Transformer 核心网络的整体序列长度，使其能够生成长时间和高分辨率的视频。TAE 的目标函数在标准的重建损失之外增加了一个惩罚项，用于对远离均值的潜在值进行惩罚，从而限制模型生成高范数潜在点（high-norm latent dots），防止模型过度依赖局部高范数（范数用于衡量矩阵的“距离”、“长度”或者“大小”）信息而影响全局的学习，以解决生成视频时出现的“斑点”伪影问题。这种设计使得生成的视频在视觉上更加自然和一致，从而显著提高了重建质量和生成效果。

原始视频和通过 TAE 编解码后的重构样本对比，发现 TAE 可以在保留视觉细节的情况下重建视频帧。对于图像和视频帧中的高频空间细节，以及视频中的快速运动，TAE 的重建质量会下降。将经过 8 倍时间压缩的 TAE 模型与未经过时间压缩的帧自动编码器（Frame-wise AutoEncoder）比较，视频数据在结构相似度（SSIM）、峰值信噪比（PSNR）、初始距离（FID）表现相当，图像数据方面 TAE 优于帧自动编码器。

Movie Gen 采用流匹配（Flow Matching）作为训练目标，避免了传统扩散模型中的逐步去噪过程，而是通过找到生成空间中从初始状态到目标状态的最优传输路径（OT，Optimal Transport），从而以更少的计算步骤达到高质量生成。流匹配是一种训练连续归一化流（CNF，Continuous Normalizing Flows）的方法，它通过学习与概率路径相关的向量场来训练模型，并使用 ODE（常微分方程）求解器来生成新样本。连续归一化流的核心思想是通过一系列可逆的变换将一个简单的分布逐步转换为复杂的目标数据分布，这种模型框架在概率密度函数变换方法的基础上，通过神经网络参数化这些变换，使得模型能够学习到输入数据的概率分布。对应到图像生成领域，图片数据与高斯噪声可以理解为不同的数据分布，CNF 即为让模型学习从噪声到图像的变换方法，FM 流匹配 +OT 最优传输路径即为相比去噪扩散概率模型（DDPM，扩散模型的基石）更具一般性、高效的变换方法。如图 10 显示，从噪声到棋盘的生成过程中，OT 路径更早地引入了棋盘模式，而FM 则实现了更稳定的训练。使用 FM+OT 使得采样步骤较少时就形成了棋盘的初始形态。

Movie Gen Video 的各个模块架构在最终实现综合质量和文本对齐方面，与其他同类架构具备显著优势。根据 FM 与 Diffusion、视频与图片标题、类 LLaMa3 与 DiT 相比的净胜率，FM、图片标题、类 LLaMa3 的架构表现出更高的净胜率。

Movie Gen Video 生成质量在当前视频大模型当前为最优。Movie Gen 在整体质量、一致性、真实度、美学方面方面显著优于 Runway Gen3 和 LumaLabs。在文字对齐和真实性方面优于 Sora，在真实性和美学方面优于快手的 Kling1.5，仅在动作完整度方面明显弱于 Kling1.5。根据 Prompt“一只带腿的鼠标在跑步机上跑步”，Movie Gen Video 生成的视频逻辑上更合理，画面更清晰流畅，Runway Gen3 在对齐方面有欠缺（生成了老鼠而不是鼠标），LumaLabs 在逻辑上不合理（沿着垂直于跑步机带的方向运动），Kling1.5 生成画面较为杂乱，缺乏美感。

2. 音频生成模型：生成与画面和情绪匹配的动效声、环境声

Movie Gen Audio 旨在为视频剪辑和短片生成几秒至几分钟不等的配乐，还原电影级音效，高度匹配画面与环境。模型考虑的原声包括环境声、音效和乐器声，但不包括语音或人声。该模型实现环境音效与视觉环境相匹配，音效与动作在时间上保持一致，并与视觉对象保持一致，表达出视频的情绪和情感，并与场景融合统一。要生成长音频，用户需要先输入长视频（例如，58s）和音频文本标题，进而长视频被拆解为几个视频块（例如，20s）。从第二个块开始，模型不仅需要视频块和文本标题，还需要之前生成的音频片段（例如，最后 5 秒），以便生成与前一个保持风格统一的新音频片段。

Meta 采用了基于流匹配的生成模型和扩散 Transformer 的模型架构，并增加了额外的调节模块以提供控制。在流程图中，黄色块表示输入，蓝色块表示预训练和冻结的模块，灰色块表示没有可学习参数的操作，绿色块表示可学习的模块，粉色块表示输出的已学习的流场（通过 Flow Matching 学到的去噪方法）。Meta 选择流匹配而不是扩散，是因为与扩散模型（DDPM）相比，流匹配具有更好的训练效率、推理效率和性能。

逐帧添加视觉和音频特征可以改善视频-音频对齐，进而实现视频画面与音频同步。从 MetaCLIP 中微调的长提示 MetaCLIP 用于提取视频中每帧的 1024 维嵌入。由于视频的帧率可能与音频的帧率不匹配，Meta 对每个音频帧取最接近的视觉帧。然后用门控线性投影层将重新采样的序列投影到 DiT 模型维度，并逐帧添加到音频特征中。与沿着时间维度拼接特征相比，逐帧添加视觉和音频特征可以改善视频-音频对齐。Meta 发现，长提示 MetaCLIP 特征编码更高级的语义信息，使学习更容易，同时保留足够的细节来捕捉每个运动的时间，以便模型产生与运动一致的声音效果。训练数据选择方面，模型将学习音频和条件输入之间不同层次的关系：

屏幕上的叙事声音在视频和音频之间有很强的对应关系。这种情况下，声音与画面同步度较高，这要求模型具有更强的视频理解能力和密集动作识别能力。难度取决于事件的密集程度和结构，一般声音总体上比音乐或语音更容易（例如，生成高尔夫球杆击球比生成一个人弹吉他匹配和弦更容易）。

生成叙事化的屏幕外音频需要理解什么声音可能出现在什么环境中(例如，在森林场景中可能出现鸟鸣)和事件之间的逻辑顺序（例如，人群欢呼可能发生在一个人表演一个困难的把戏之后，而不是之前）。因此，与屏幕上的声音相比，它需要更强的推理能力。

非叙事音频在语义层面上与视频相关。例如，背景音乐需要与气氛相匹配，而升调通常用来创造一种紧张或期待的感觉。这需要超越理解世界物理的最深层次的理解，需要推理和模拟人类的情感。训练结果：在不同数据集上，Movie Gen Audio 的净胜率（范围[-100%,100%]）在总体质量（图中的 Ovr.）、自然度（Nat.）、专业度（Pro.）、叙事正确性（Corr.）、叙事同步性（Sync.）等指标均优于对比模型。

3. 个性化视频模型：用于生成特定人像的微调模型

基于 30B 的 Movie Gen Video 模型，Meta 将参考人像、个性化文本作为输入，实现了个性化视频（PT2V）输出。Meta 从已训练好的 T2V Movie Gen Video 参数作为初始化权重，在微调当中使用视觉标记串联，使其集成到一个统一的框架中，从而允许扩展模型大小。使用可训练的长提示 MetaCLIP 视觉编码器从人脸图像中提取身份特征，然后使用投影层将其与文本特征维度对齐，进而输入到 Transformer 的交叉注意力模块进行训练。黄色模块表示冻结层，采用已训练好的参数，绿色表示可训练模块。训练策略包括 PT2V 预训练阶段，然后是 PT2V 高质量的微调。

PT2V 生成人物身份正确性和各帧的面部一致性优于此前 SOTA 模型。Meta 在对 PT2V 预训练和高质量监督微调之后，与 ID-Animator、单独 PT2V 预训练、单独 PT2V 微调对比，比较发现 Meta 个性化模型在最佳相似帧、最差相似帧和跨帧的面部一致性三个方面取得优异的结果，尤其在面部一致性方面显著胜出。另外，其微调模型与 ID-Animator 相比，在总体质量、一致性、动作自然度、动作复杂度、文本对齐方面全部胜出。而 PT2V 预训练在动作自然度、动作复杂度、文本对齐方面略逊色于 T2V 预训练，我们认为可能是 PT2V 模型注意力集中于输入人物形象，对基础动作和环境的学习略有减弱。

4.可编辑视频模型：无需大量监督视频数据实现模型训练

专业视频编辑软件门槛高、操作复杂，Meta 发布基于自然语言指令的视频编辑模型，可提升普通人或半专业群体的视频编辑效率。当前由于缺乏大量的监督视频编辑数据，开发高效的视频编辑模型仍有较大挑战。为了解决数据不足的问题， Movie Gen Edit 创新地采用了一系列训练策略，使得无需依赖大量监督数据，也能实现出色的视频编辑效果。其基础架构基于视频生成模型进行了若干改动：

视频输入：模型通过在 Patch Embedder 中添加额外的输入通道来实现视频输入的条件化。将输入视频的隐向量和噪声/输出的隐向量沿通道维度进行拼接，再传递给模型。

任务嵌入向量：参考 Emu Edit，在模型中加入了用于特定编辑任务的嵌入向量，每种不同的任务都有一个可学习的任务嵌入向量。

权重初始化：为了保证视频生成的能力，所有新添加的权重被初始化为 0，其余的权重则从预训练好的 Movie Gen 模型中继承。视频训练分为三个阶段：第一阶段利用图像编辑来模拟单帧视频编辑，第二阶段通过合成多帧编辑任务来减少模糊问题，第三阶段则通过反向翻译增强了输出视频的自然感。该训练方法克服了由于缺乏监督数据而产生的“训练—测试”不一致性问题。

第一阶段：单帧视频编辑。由于缺乏监督视频编辑数据，Movie Gen Edit 利用图像编辑数据，将其视为单帧视频编辑来进行训练。具体地，图像编辑数据由三元组组成，表示输入图像、编辑指令和输出图像。高质量的视频编辑不仅需要精确编辑单个帧，还需要确保输出视频保持时间一致性，以及新元素的合理性。因此，模型被同时训练进行图像编辑和文本到视频生成，以保持时间一致性和生成质量。

第二阶段：多帧视频编辑。虽然第一阶段的模型已经具备了编辑单帧图像和生成高质量视频的能力，但在进行视频编辑时仍然会产生模糊的结果。为了减少这类问题，第二阶段的训练通过创建两个包含多帧视频输入和输出的合成数据集来进行改进，数据集包括：（1）动画帧编辑：利用视频-字幕数据对生成编辑指令，并对随机帧进行编辑，然后通过仿射变换将这些帧进行动画化，从而生成多帧编辑的示例。（2）生成式指令引导视频分割：要求模型根据指令用高亮颜色标记视频中的特定对象，以补充动画帧编辑中缺乏自然运动的问题。

第三阶段：基于反向翻译（back translation）的视频编辑。虽然第二阶段训练的模型减轻了模糊问题，但新生成的元素仍然缺乏足够的运动感，且有时会过度饱和。因此，Meta 通过创建包含真实输出视频的视频编辑数据集来解决这些问题，并引入了反向翻译技术。模型首先生成一个编辑后的视频，然后通过反向指令将其还原至原视频，从而实现“去噪”获得真实视频。这种方法构建了一个弱监督的视频编辑数据集，使模型能够在带有噪声的视频和编辑指令的条件下进行“去噪”。

Movie Gen Edit 编辑效果显著优于其他视频编辑模型。前期相关工作包括：随机差分编辑（SDEdit）通过向输入视频添加噪声，然后用描述性文本进行微调的同时进行去噪来执行图像编辑，这种方法可能会导致重要细节的丢失，例如主体身份和纹理，从而降低了精确编辑的效果；目前表现最优的视频编辑方法，是利用事先训练好同时克服了视频编辑缺乏监督数据集的问题，例如 InsV2V 将 InstructPix2Pix 的一般方法扩展到视频编辑，可以使用合成数据创建和训练视频编辑模型；EVE 采用无监督训练，通过使用来自两个专家模型的知识蒸馏，一个用于图像编辑，另一个用于文本到视频的生成。Meta 在 TGVE+（Text Guided Video Editing，文本引导视频编辑）和在 Movie Gen Edit Bench 基准上，与所有模型进行比较，人类评估分数取自[0,100]，50 代表模型水平相当。下图数据显示，Meta 模型在文本、结构、质量、综合评分明显优于 InsV2V、Runway Gen3 V2V、SDEdit 等。

参考报告

计算机行业专题报告：Meta Movie Gen的论文告诉我们什么？.pdf

计算机行业专题报告：MetaMovieGen的论文告诉我们什么？MovieGen：音视频两手抓，模型效果亮眼。2024年10月4日，Meta团计算机20%10%-1%-12%-23%-34%沪深300上证指数分析师杨烨SAC证书编号：S0160522050001yangye01@ctsec.com分析师李宇轩SAC证书编号：S0160524080001liyx02@ctsec.com相关报告1.《智驾月报：补贴政策见效，网联化推进》2024-10-172.《十大不容忽视的数据要素新政细节》2024-10-163.《特斯拉发布Cybercab，预期三年内量产》2024-10-13队发布论文《Mo...

查看详情

Meta四大模型原理与训练方法介绍

1.视频生成模型：创新模型架构实现高效训练

2. 音频生成模型：生成与画面和情绪匹配的动效声、环境声

3. 个性化视频模型：用于生成特定人像的微调模型

4.可编辑视频模型：无需大量监督视频数据实现模型训练

计算机行业专题报告：Meta Movie Gen的论文告诉我们什么？.pdf

如何量化AI对Meta业务的弹性贡献？

Meta广告收入、资本开支及AI布局情况如何？

Meta经营看点在哪？

腾讯与Meta经营对比分析

Meta AI业务布局情况如何？

Meta基本业务有何进展？

Meta发展历程、股权架构及财务分析

Meta四大模型原理与训练方法介绍

Meta的成功要素在哪？

Meta VRAR业务布局情况如何?

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王