国内厂商视频生成模型布局进展如何?

国内厂商视频生成模型布局进展如何?

最佳答案 匿名用户编辑于2025/05/08 13:38

视频生成模型进入高速发展期,可灵、Sora、 Veo2 综合实力领先。

1. 视频生成模型以 DiT 为主流架构,以快手为代表的国内厂 商快速取得技术突破

视频生成模型以 DIT 为主流架构,目前发展迅速。AI 视频生成技术的迭代路径分为多个阶段,每 个阶段的技术升级都带来了视频生成质量飞跃性的提升。过去 10 年中,视觉生成式技术框架逐渐 从生成对抗网络(GAN)向扩散模型(Diffusion Model)过渡,期间也出现了基于 Transformer 的方法但未成为主流。2022 年 12 月,Willian Peebles 和 Saining Xie 通过论文提出 DiT 的神经网 络结构,其结合了视觉 Transformer 和 Diffusion 的优点,把 DPPM 中的卷积架构 U-Net 换成 Transformer 架构,高效地捕获数据中的依赖关系并生成高质量的结果。Willian 随后加入 OpenAI 领导 Sora 项目,将 DiT 和规模定律扩展至视频生成中。快手可灵、OpenAI Sora、生数科技 Vidu 等都是采用 DiT 架构的典型代表。

Sora 发布后国内厂商迅速实现技术追赶,快手 4 个月后上线可灵并保持快速迭代。Sora 的核心 技术支柱为 DiT 架构,将 Transformer 引入扩散模型,极大提升了后者的扩展能力,底层仍然是 围绕加噪去噪的扩散过程做训练。Sora 的发布也引领了视频生成模型的 DiT热潮,2023年 DiT原 始论文的被引次数约 200 次,至 2024 年 12 月已被引用近 800 次,增长近 3 倍。Sora 发布后, 次月便出现尝试复现的开源项目 Open-Sora 和 Open-Sora-Plan,此后生数科技、谷歌、快手等 陆续发布对标Sora的闭源模型产品,并持续保持迭代,如快手可灵2024年6月上线1.0版本后、 9 月升级 1.5 版本、12 月升级到 1.6 版本,内部测评 1.6 版本相较上一版本性能提升 195%。目前 市面上的视频生成产品,包括海外的 Sora、Veo2、Runway、Luma、Pika 和国内的可灵、海螺、即梦、Vidu、混元、通义万相。考虑到视频生成的主要产品均是 2024 年才密集发布,我们认为 可以重点关注技术和产品迭代情况。

现有玩家里,Tier1 为谷歌 Veo2、OpenAI Sora、快手可灵、Minimax 海螺、生数科技 Vidu, 如何筛选核心指标及评判?目前市面上对视频生成模型的评价体系主要围绕三个维度展开: 一是生成视频的真实性和美学效果:包括视觉吸引力、趣味性、颜色、风格等。我们理解对 于这个指标,一梯队的厂商无明显差异,但能和二梯队厂商拉开差距; 二是语义对齐:衡量用户输入的 prompt 和生成视频的对齐和遵循程度。从这个层面,我们 理解为有LLM模型能力储备的厂商如阿里、字节或能快速迭代出语义遵循表现较好的产品; 三是视觉质量:主要衡量生成内容的时间一致性(是否会出现变形伪影、模糊或扭曲)、运 动完整性和自然性(运动量和幅度、以及对物理规律的理解和仿真) 综上,我们认为,尤其对于一梯队厂商来说,视觉质量是更核心的指标(在 LLM 模型开源趋势 下,不同视觉生产模型的语义对齐能力或能看齐)。 参考 Vbench 的测评体系,其对视觉质量的评价相对全面,主要基于主体一致性、背景一致性、 时间闪烁、运动平滑性、动态度这 5 个细分指标,快手可灵表现优异。Vbench 是由上海人工智 能实验室、南阳理工大学 S-lab、香港中文大学、南京大学联合提出的视频生成模型评测体系,提 出了 16 个分层和解耦的评测维度,主要分为两大类,视频质量和视频条件一致性。视频质量强调 时间维度上的一致性、运动平滑性、动态程度和美学价值,视频条件一致性强调 T2V的视频-文本 一致性和对齐程度。从测评情况看,快手可灵(测评中为 1.0 版本)在时间维度的一致性上表现 优秀,且视频中生成的运动平滑度高、对物理定律的遵循较好。 此外我们了解到,实际在工业化场景应用中,如游戏、短视频、广告、电商商品视频等,更关注 精准控制,但目前已有的评价体系未有进行测评刻画。精确控制衡量的是对生成内容的局部细节 调整、以及对于用户指令变化进行精确地控制修改,在这个指标下 Sora、Vidu、可灵表现突出。

此外,我们以 Google 内部测评的结果来对可灵排位和领先性做交叉验证,其内评结果显示快手 可灵 1.5 仅次于谷歌 Veo2。谷歌发布 Veo2 时,基于 Meta 的 MovieGenBench 基准数据,对用 户偏好 Veo2 或对比模型(Sora、Meta 的 Movie Gen、快手可灵、海螺)的情况做了测评,测评 结果显示偏好对比模型占比最高的是可灵,有 32.6%的用户在和 Veo2 的对比下选择快手可灵。 若综合考虑偏好可灵和认为两个模型打平的用户情况,则只有可灵的偏好度占比超过 50%。此外 在语义遵循这个层面,有 36.6%用户认为可灵表现更胜一筹。

综上所述,我们认为文生视频模型的技术发展已经进入到明显加速期,以主流架构 DiT 为基础技 术路径,海外 OpenAI Sora、谷歌 Veo2、Luma,以及国内快手可灵、Vidu、海螺、阿里通义、 字节即梦、腾讯混元均进入产品快速迭代周期,一梯队厂商主要为 OpenAI Sora、谷歌 Veo2 和 快手可灵等。技术能力的核心要素为视觉质量和精确控制,可灵在这两个维度上的综合表现均为 领先状态。因此,我们认为随着多模态技术持续演进、成本进一步下降,产品和商业化的演进和 落地将会进入发展新周期。

2. 现为视频多模态阶段一,除技术外,可跟踪产品和商业化 边际变化

24 年主流产品均快速迭代,快手迭代速度保持领先。我们认为在现在多模态视频技术水平处于周 期发展的阶段一,技术为核心观察指标,但也需关注各家产品变化情况。从过去的2024年,视频 生成模型厂商基本迭代版本数在 3~5 个版本,其中可灵基本保持 3 个月一次版本迭代并做到全量 上线,迭代速度保持领先。从生成视频时长看,目前多数能生成 5~10s 的视频,分辨度多在 720p/1080p,整体差异不大。从各产品主要功能看,Sora、可灵、Runway 有较丰富的功能。现 有的产品实际生成效果对比下,可灵的细节控制、场景的细致程度更好。我们预期 2025 年产品 迭代速度会加快,可灵有望持续保持领先优势。

视频生成产品访问量快速增长,海螺、可灵、Sora 领先。从视频生成产品的用户访问量来看, 2025 年 2 月海螺、可灵、Sora 位居 Top3,分别为 2756 万、1591 万、1050 万;从独立访客数 看,海螺、Sora、可灵分别以 634 万、592 万、376 万保持领先。具体从流量的地区分布看用户 差异,快手可灵的第一大流量来源为美国,占比 14.18%,仅次于本土产品 Sora 的 32.09%,高 于 Veo2 的 9.84%,且高于其他国内产品如海螺、Vidu、即梦。 对比视频生成产品和 Top AI 产品的访问量量级情况,存在差距,可持续跟踪未来 gap 趋势反映 技术成熟度和用户接受度情况。2025 年 2 月 ChatGPT web 端用户访问量为 40.4 亿,国内 web 端用户访问量最大为 DeepSeek 为 5.7 亿,视频生成产品与相对成熟态的 ChatBot 应用相比存在 较大差距,说明目前视频生成产品发展仍处于早期阶段,距离达到产品 ToC 大范围应用仍有距离, 需要产品能力提升和成本进一步下降。

整体行业商业化均处于早期阶段,未来创作门槛进一步降低、社区生态形成后变现方式更具想象 空间。我们的观点在于,目前处于技术快速进步期、视频推理的算力成本未大幅下降阶段,对应 产品发展初期阶段,当前商业化方式主要以工具属性收费为主。未来随着技术进步、成本进一步 降低,以及产品的进阶,商业模式会发生变化。 对比国内外主流视频生成大模型,各公司目前针对 C 端均采用会员付费体系、针对 B 端采用 API 接口调用,会员体系为用户提供差异化效果体验(如在分辨率和部分特色功能上),具体为每月 给予一定量免费视频生成额度,若需使用更多相关功能或生成更高质的视频则需通过额外付费成 为会员解锁。 目前从披露的商业化流水数据来看增速较好,如 Runway2024 年 12 月的年化收入为 8400 万美元,相较 6 月的年化收入 2800 万美元增长了 2 倍;快手可灵 ToC 端的单月流水(24Q3) 为千万量级,起量较快;ToB 端可灵在 2024 年 9 月开放了 API 服务,涵盖了视频生成、图 像生成和虚拟试穿等模块,电商、广告主等企业客户可以将可灵模型融入自身系统,以提升 内容创作的效率,通过提供定制化 API 服务探索收入,这将是可灵 25 年的重点发力方向。 从单条 5s 视频的生成成本看,除了 Runway 的 Gen-3 Alpha 价格较高达到 8.17 元/条,其余 产品的单条 5s 视频生成成本多在 1~4 元。 未来随着视频生成模型的不断迭代完善,商业化路径也会逐渐清晰,我们判断会有变现更高的商 业模式出现。展望来看,初期工具应用积累下来的创作者沉淀为种子用户,新的社区生态和环境 下,可以探索类似接商单的商业模式,除了 API 收入,视频生成大模型公司或可基于订单金额分 成形式进一步拓展收入空间。

参考报告

快手研究报告:看好快手可灵卡位,多模态视频生成全球领先.pdf

快手研究报告:看好快手可灵卡位,多模态视频生成全球领先。多模态视频生产工具带动内容生态新周期可期,关注优秀技术+产品。纵观多个技术周期,技术平权趋势下内容创作门槛的持续下降,带动新平台新流量的发展。因此站在AI新周期“技术-社区-商业化”的叙事逻辑下,我们判断随着技术持续提升、算力成本持续下降,将带动多模态视频生产工具大规模使用,内容生态将在现有量级基础上进一步指数级提升,形成下一代内容生态【指标:创作者在用户中占比,~0.1%(电影、长视频等)→20%+(短视频时代)→更高(AIGC时代)】。站在该时点,现阶段谁更具备进入下一周期的可能性且持续领先...

查看详情
相关报告
我来回答