如果你对该问题感兴趣的话,推荐你看看《计算机行业专题报告:Meta Movie Gen的论文告诉我们什么?》这篇报告,下面是部分摘录的内容,具体请以原报告为准。
1.视频生成模型:创新模型架构实现高效训练
Movie Gen Video 训练过程分为三个主要步骤:低分辨率 T2I(Text to Image 文本到图像)预训练:在低分辨率(256px)图 像数据集上进行预训练,让模型学会基本的文本到图像的生成能力,并形成 对基础视觉元素的理解。
联合低分辨率图像和视频预训练:通过同时训练文本到图像和文本到视频的 任务,模型可以在相同的框架中生成图像和视频,从而共享视觉和时间建模 能力,有助于模型在处理时间维度时,更好地捕获视频的运动特征。
高分辨率微调:模型在高质量的视频数据集上进行微调,以提高视频生成的 质量。模型逐步提高视频的空间分辨率(从 256px 提升到 768px),并进行针 对性的优化,有助于提高生成视频的细节水平和视觉质量,使生成的视频更 加逼真、连贯。

创新模型训练架构,TAE+Flow Matching+Transformer 提升训练和推理效率。 Meta 训练了一个单一的时间自动编码器模型(TAE,Temporal Autoencoder)来将 图像和视频映射到时空压缩的潜在空间(spatiotemporally compressed latent space) 中,使用预训练的文本编码器对输入文本进行编码,以获得文本提示嵌入。Meta 使用流匹配(FM,Flow Matching)训练方法,以采样噪声和用户文本作为输入, 最终通过 TAE 解码器将其映射回像素空间并生成图像或视频。过去的主干网络以 DiT(扩散 Transformer)为主,而 Meta 使用了 LLaMa3(Transformer)结构。训 练过程对文本提示的处理分为三个部分:
UL2(统一语言学习范式,Unifying Language Learning Paradigms):可构建一 种独立于模型架构以及下游任务类型的预训练策略(自监督目标),可以灵活 地适配不同类型的下游任务。使用大量纯文本数据进行训练,提供了强大的 文本推理能力。
Long-prompt MetaCLIP:通过对较长文本标题的 MetaCLIP 文本编码器进行微 调,将输入文本 token 长度从 77 增加到 256。提供了与视觉对齐的文本表示, 有利于跨模态生成。
ByT5(Byte-to-byte Text-to-Text Transfer Transformer):基于 T5 架构的预训练 字节级 Transformer(不再处理 token,而直接作用于文本字节或字符),对噪 声的鲁棒性更强,对拼写和发音敏感的任务上表现更好。
硬件与基础设施:使用多达 6144 个 H100 GPU 来训练多模态模型,每个 GPU 都运行在 700W TDP,配备 80GB HBM3,使用 Meta 的 Grand Teton AI 服务 器平台进行训练。每个服务器内有 8 个 GPU,通过 NVSwitches 均匀连接。 服务器之间的 GPU 通过 400Gbps RoCE RDMA NICs 连接。训练任务由 Meta 的全球规模训练调度程序 MAST 进行调度。
与大语言模型的比较:与大型语言模型(LLM)使用结构化因果注意力掩码 来强制 token 的因果性不同,Movie Gen Video 使用的全双向注意力(full bidirectional attention),其核心优势在于其能够双向交互,增强模型对上下文的 理解深度。这种机制不仅允许模型在编码器和解码器之间双向流动,而且还 能够更精确地聚焦于问题相关的文段部分,从而显著提升了机器理解自然语 言的能力。此外,LLaMa3 使用分组查询注意力(GQA)代替多头注意力 (MHA),这减少了 K-头和 V-头的数量,从而减少了键(Key)和值(Value) 投影的总维度。这不仅减少了 FLOPs 和张量内存大小,还提高了内存带宽利 用率。
模型并行方法:LLaMa3 训练分为不同上下文长度的阶段。由于模型规模大、 上下文长度极长,需要使用多种并行性来实现高效训练。Meta 采用 3D 并行 性来支持模型在参数量、输入 token 和数据集大小三个维度上的扩展,同时 允许水平扩展到更多的 GPU。Meta 利用了完全分片的数据并行性、张量并行 性、序列并行性和上下文并行性。
TAE 用于将 RGB 像素空间的视频和图像编码,进入时空压缩的潜在空间中学习, 通过优化目标函数,提高生成质量和效率。TAE 基于变分自动编码器(VAE,采 用变分推断的用于降维、数据压缩和生成的神经网络),通过在 2D 空间卷积后加 入 1D 时间卷积,使得模型能够更好地处理视频的时间维度。TAE 将输入的各个 时空维度(T 时间、H 高度、W 宽度)压缩 8 倍,从而减少 Transformer 核心网络 的整体序列长度,使其能够生成长时间和高分辨率的视频。TAE 的目标函数在标 准的重建损失之外增加了一个惩罚项,用于对远离均值的潜在值进行惩罚,从而 限制模型生成高范数潜在点(high-norm latent dots),防止模型过度依赖局部高范 数(范数用于衡量矩阵的“距离”、“长度”或者“大小”)信息而影响全局的学习, 以解决生成视频时出现的“斑点”伪影问题。这种设计使得生成的视频在视觉上更 加自然和一致,从而显著提高了重建质量和生成效果。
原始视频和通过 TAE 编解码后的重构样本对比,发现 TAE 可以在保留视觉细节 的情况下重建视频帧。对于图像和视频帧中的高频空间细节,以及视频中的快速 运动,TAE 的重建质量会下降。将经过 8 倍时间压缩的 TAE 模型与未经过时间压 缩的帧自动编码器(Frame-wise AutoEncoder)比较,视频数据在结构相似度(SSIM)、 峰值信噪比(PSNR)、初始距离(FID)表现相当,图像数据方面 TAE 优于帧自 动编码器。
Movie Gen 采用流匹配(Flow Matching)作为训练目标,避免了传统扩散模型中 的逐步去噪过程,而是通过找到生成空间中从初始状态到目标状态的最优传输路 径(OT,Optimal Transport),从而以更少的计算步骤达到高质量生成。流匹配 是一种训练连续归一化流(CNF,Continuous Normalizing Flows)的方法,它通过 学习与概率路径相关的向量场来训练模型,并使用 ODE(常微分方程)求解器来 生成新样本。连续归一化流的核心思想是通过一系列可逆的变换将一个简单的分 布逐步转换为复杂的目标数据分布,这种模型框架在概率密度函数变换方法的基 础上,通过神经网络参数化这些变换,使得模型能够学习到输入数据的概率分布 。对应到图像生成领域,图片数据与高斯噪声可以理解为不同的数据分布,CNF 即为让模型学习从噪声到图像的变换方法,FM 流匹配 +OT 最优传输路径即为相 比去噪扩散概率模型(DDPM,扩散模型的基石)更具一般性、高效的变换方法。 如图 10 显示,从噪声到棋盘的生成过程中,OT 路径更早地引入了棋盘模式,而FM 则实现了更稳定的训练。使用 FM+OT 使得采样步骤较少时就形成了棋盘的 初始形态。

Movie Gen Video 的各个模块架构在最终实现综合质量和文本对齐方面,与其他 同类架构具备显著优势。根据 FM 与 Diffusion、视频与图片标题、类 LLaMa3 与 DiT 相比的净胜率,FM、图片标题、类 LLaMa3 的架构表现出更高的净胜率。
Movie Gen Video 生成质量在当前视频大模型当前为最优。Movie Gen 在整体质 量、一致性、真实度、美学方面方面显著优于 Runway Gen3 和 LumaLabs。在文 字对齐和真实性方面优于 Sora,在真实性和美学方面优于快手的 Kling1.5,仅在 动作完整度方面明显弱于 Kling1.5。根据 Prompt“一只带腿的鼠标在跑步机上跑 步”,Movie Gen Video 生成的视频逻辑上更合理,画面更清晰流畅,Runway Gen3 在对齐方面有欠缺(生成了老鼠而不是鼠标),LumaLabs 在逻辑上不合理(沿着 垂直于跑步机带的方向运动),Kling1.5 生成画面较为杂乱,缺乏美感。
2. 音频生成模型:生成与画面和情绪匹配的动效声、环境声
Movie Gen Audio 旨在为视频剪辑和短片生成几秒至几分钟不等的配乐,还原电 影级音效,高度匹配画面与环境。模型考虑的原声包括环境声、音效和乐器声, 但不包括语音或人声。该模型实现环境音效与视觉环境相匹配,音效与动作在时 间上保持一致,并与视觉对象保持一致,表达出视频的情绪和情感,并与场景融合统一。要生成长音频,用户需要先输入长视频(例如,58s)和音频文本标题, 进而长视频被拆解为几个视频块(例如,20s)。从第二个块开始,模型不仅需要 视频块和文本标题,还需要之前生成的音频片段(例如,最后 5 秒),以便生成与 前一个保持风格统一的新音频片段。
Meta 采用了基于流匹配的生成模型和扩散 Transformer 的模型架构,并增加了 额外的调节模块以提供控制。在流程图中,黄色块表示输入,蓝色块表示预训练 和冻结的模块,灰色块表示没有可学习参数的操作,绿色块表示可学习的模块, 粉色块表示输出的已学习的流场(通过 Flow Matching 学到的去噪方法)。Meta 选 择流匹配而不是扩散,是因为与扩散模型(DDPM)相比,流匹配具有更好的训练 效率、推理效率和性能。

逐帧添加视觉和音频特征可以改善视频-音频对齐,进而实现视频画面与音频同步。 从 MetaCLIP 中微调的长提示 MetaCLIP 用于提取视频中每帧的 1024 维嵌入。由 于视频的帧率可能与音频的帧率不匹配,Meta 对每个音频帧取最接近的视觉帧。 然后用门控线性投影层将重新采样的序列投影到 DiT 模型维度,并逐帧添加到音 频特征中。与沿着时间维度拼接特征相比,逐帧添加视觉和音频特征可以改善视 频-音频对齐。Meta 发现,长提示 MetaCLIP 特征编码更高级的语义信息,使学习 更容易,同时保留足够的细节来捕捉每个运动的时间,以便模型产生与运动一致 的声音效果。 训练数据选择方面,模型将学习音频和条件输入之间不同层次的关系:
屏幕上的叙事声音在视频和音频之间有很强的对应关系。这种情况下,声音 与画面同步度较高,这要求模型具有更强的视频理解能力和密集动作识别能 力。难度取决于事件的密集程度和结构,一般声音总体上比音乐或语音更容 易(例如,生成高尔夫球杆击球比生成一个人弹吉他匹配和弦更容易)。
生成叙事化的屏幕外音频需要理解什么声音可能出现在什么环境中(例如,在 森林场景中可能出现鸟鸣)和事件之间的逻辑顺序(例如,人群欢呼可能发生 在一个人表演一个困难的把戏之后,而不是之前)。因此,与屏幕上的声音相 比,它需要更强的推理能力。
非叙事音频在语义层面上与视频相关。例如,背景音乐需要与气氛相匹配, 而升调通常用来创造一种紧张或期待的感觉。这需要超越理解世界物理的最 深层次的理解,需要推理和模拟人类的情感。 训练结果:在不同数据集上,Movie Gen Audio 的净胜率(范围[-100%,100%])在 总体质量(图中的 Ovr.)、自然度(Nat.)、专业度(Pro.)、叙事正确性(Corr.)、 叙事同步性(Sync.)等指标均优于对比模型。
3. 个性化视频模型:用于生成特定人像的微调模型
基于 30B 的 Movie Gen Video 模型,Meta 将参考人像、个性化文本作为输入,实 现了个性化视频(PT2V)输出。Meta 从已训练好的 T2V Movie Gen Video 参数作 为初始化权重,在微调当中使用视觉标记串联,使其集成到一个统一的框架中, 从而允许扩展模型大小。使用可训练的长提示 MetaCLIP 视觉编码器从人脸图像 中提取身份特征,然后使用投影层将其与文本特征维度对齐,进而输入到 Transformer 的交叉注意力模块进行训练。黄色模块表示冻结层,采用已训练好的 参数,绿色表示可训练模块。训练策略包括 PT2V 预训练阶段,然后是 PT2V 高 质量的微调。
PT2V 生成人物身份正确性和各帧的面部一致性优于此前 SOTA 模型。Meta 在对 PT2V 预训练和高质量监督微调之后,与 ID-Animator、单独 PT2V 预训练、单独 PT2V 微调对比,比较发现 Meta 个性化模型在最佳相似帧、最差相似帧和跨帧的 面部一致性三个方面取得优异的结果,尤其在面部一致性方面显著胜出。另外, 其微调模型与 ID-Animator 相比,在总体质量、一致性、动作自然度、动作复杂 度、文本对齐方面全部胜出。而 PT2V 预训练在动作自然度、动作复杂度、文本 对齐方面略逊色于 T2V 预训练,我们认为可能是 PT2V 模型注意力集中于输入人 物形象,对基础动作和环境的学习略有减弱。
4.可编辑视频模型:无需大量监督视频数据实现模型训练
专业视频编辑软件门槛高、操作复杂,Meta 发布基于自然语言指令的视频编辑模 型,可提升普通人或半专业群体的视频编辑效率。当前由于缺乏大量的监督视频 编辑数据,开发高效的视频编辑模型仍有较大挑战。为了解决数据不足的问题, Movie Gen Edit 创新地采用了一系列训练策略,使得无需依赖大量监督数据,也 能实现出色的视频编辑效果。其基础架构基于视频生成模型进行了若干改动:
视频输入:模型通过在 Patch Embedder 中添加额外的输入通道来实现视频输 入的条件化。将输入视频的隐向量和噪声/输出的隐向量沿通道维度进行拼接, 再传递给模型。
任务嵌入向量:参考 Emu Edit,在模型中加入了用于特定编辑任务的嵌入向 量,每种不同的任务都有一个可学习的任务嵌入向量。
权重初始化:为了保证视频生成的能力,所有新添加的权重被初始化为 0,其 余的权重则从预训练好的 Movie Gen 模型中继承。 视频训练分为三个阶段:第一阶段利用图像编辑来模拟单帧视频编辑,第二阶段 通过合成多帧编辑任务来减少模糊问题,第三阶段则通过反向翻译增强了输出视 频的自然感。该训练方法克服了由于缺乏监督数据而产生的“训练—测试”不一 致性问题。
第一阶段:单帧视频编辑。由于缺乏监督视频编辑数据,Movie Gen Edit 利用 图像编辑数据,将其视为单帧视频编辑来进行训练。具体地,图像编辑数据 由三元组组成,表示输入图像、编辑指令和输出图像。高质量的视频编辑不 仅需要精确编辑单个帧,还需要确保输出视频保持时间一致性,以及新元素的合理性。因此,模型被同时训练进行图像编辑和文本到视频生成,以保持 时间一致性和生成质量。
第二阶段:多帧视频编辑。虽然第一阶段的模型已经具备了编辑单帧图像和 生成高质量视频的能力,但在进行视频编辑时仍然会产生模糊的结果。为了 减少这类问题,第二阶段的训练通过创建两个包含多帧视频输入和输出的合 成数据集来进行改进,数据集包括:(1)动画帧编辑:利用视频-字幕数据对 生成编辑指令,并对随机帧进行编辑,然后通过仿射变换将这些帧进行动画 化,从而生成多帧编辑的示例。(2)生成式指令引导视频分割:要求模型根 据指令用高亮颜色标记视频中的特定对象,以补充动画帧编辑中缺乏自然运 动的问题。
第三阶段:基于反向翻译(back translation)的视频编辑。虽然第二阶段训 练的模型减轻了模糊问题,但新生成的元素仍然缺乏足够的运动感,且有时 会过度饱和。因此,Meta 通过创建包含真实输出视频的视频编辑数据集来解 决这些问题,并引入了反向翻译技术。模型首先生成一个编辑后的视频,然 后通过反向指令将其还原至原视频,从而实现“去噪”获得真实视频。这种 方法构建了一个弱监督的视频编辑数据集,使模型能够在带有噪声的视频和 编辑指令的条件下进行“去噪”。
Movie Gen Edit 编辑效果显著优于其他视频编辑模型。前期相关工作包括:随机 差分编辑(SDEdit)通过向输入视频添加噪声,然后用描述性文本进行微调的同 时进行去噪来执行图像编辑,这种方法可能会导致重要细节的丢失,例如主体身 份和纹理,从而降低了精确编辑的效果;目前表现最优的视频编辑方法,是利用 事先训练好同时克服了视频编辑缺乏监督数据集的问题,例如 InsV2V 将 InstructPix2Pix 的一般方法扩展到视频编辑,可以使用合成数据创建和训练视频编 辑模型;EVE 采用无监督训练,通过使用来自两个专家模型的知识蒸馏,一个用 于图像编辑,另一个用于文本到视频的生成。Meta 在 TGVE+(Text Guided Video Editing,文本引导视频编辑)和在 Movie Gen Edit Bench 基准上,与所有模型进行 比较,人类评估分数取自[0,100],50 代表模型水平相当。下图数据显示,Meta 模 型在文本、结构、质量、综合评分明显优于 InsV2V、Runway Gen3 V2V、SDEdit 等。
