视频大模型专题报告：奇点时刻加速到来.pdf

上传者：1*****
时间：2024/08/21
热度：430
0人点赞
举报

视频大模型专题报告：奇点时刻加速到来。视频大模型迎来Sora时刻，生产力工具蓄势待发。自Sora发布以来，国内外已有十多家公司发布或更新视频生成模型。视频大模型具备商用潜力，下游应用正在储能。未来随着用户习惯的培育以及算力基础设施的完善，视频大模型的或者办公、广告、电影、游戏等多领域具有广阔的前景。

客观对比：与Sora差距缩小，抢占用户或为未来主线。国内外之间的差距正在逐步缩小，视频时长、分辨率等基础功能具有复制性，未来竞争或向抢占用户、提升粘性等方向迁移，从而需要保障生成质量更高的可用视频，使得视频一致性更高、文本指令遵循更准确、物理真实模拟能力更强。

主观对比：视频质量提升显著，离物理世界模拟器仍有距离。文生视频领域，视频画面普遍清晰，而在动作幅度与物理还原度方面差异较大，我国Vidu、清影或已处于视频生成大模型第一梯队，生成时间相对其他模型倍数减少，且在动作幅度、物理还原度等复杂任务完成性较好；图生视频领域，整体效果优于文生视频，国内与国外差距进一步缩小。

算法、算力、数据三要素，视频大模型通往AGI的必经之路。

算法：视频生成模型算法主要由基于SD逐帧生成和基于时空Patches两种范式构成，是效率与效益的比拼。前者模型更容易训练，而视频内容一致性要差一些，长视频训练存在困难；后者训练成本更高，但是生成视频的长度与一致性更容易得到保障。

算力：以Sora为例，一定条件下测算，Sora训练算力需求是GPT-4的4.5倍，而推理算力需求接近GPT-4的400倍。

数据：高质量数据是模型能力的保障，而用户数量或为开启模型迭代“数据飞轮”的关键。