国内厂商视频生成模型布局进展如何？

提问时间：2025/05/08
浏览次数：121
提问者：匿名用户
举报
分享微信 QQ 微博

国内厂商视频生成模型布局进展如何？

标签

视频

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/05/08 13:38

视频生成模型进入高速发展期，可灵、Sora、 Veo2 综合实力领先。

1. 视频生成模型以 DiT 为主流架构，以快手为代表的国内厂商快速取得技术突破

视频生成模型以 DIT 为主流架构，目前发展迅速。AI 视频生成技术的迭代路径分为多个阶段，每个阶段的技术升级都带来了视频生成质量飞跃性的提升。过去 10 年中，视觉生成式技术框架逐渐从生成对抗网络（GAN）向扩散模型（Diffusion Model）过渡，期间也出现了基于 Transformer 的方法但未成为主流。2022 年 12 月，Willian Peebles 和 Saining Xie 通过论文提出 DiT 的神经网络结构，其结合了视觉 Transformer 和 Diffusion 的优点，把 DPPM 中的卷积架构 U-Net 换成 Transformer 架构，高效地捕获数据中的依赖关系并生成高质量的结果。Willian 随后加入 OpenAI 领导 Sora 项目，将 DiT 和规模定律扩展至视频生成中。快手可灵、OpenAI Sora、生数科技 Vidu 等都是采用 DiT 架构的典型代表。

Sora 发布后国内厂商迅速实现技术追赶，快手 4 个月后上线可灵并保持快速迭代。Sora 的核心技术支柱为 DiT 架构，将 Transformer 引入扩散模型，极大提升了后者的扩展能力，底层仍然是围绕加噪去噪的扩散过程做训练。Sora 的发布也引领了视频生成模型的 DiT热潮，2023年 DiT原始论文的被引次数约 200 次，至 2024 年 12 月已被引用近 800 次，增长近 3 倍。Sora 发布后，次月便出现尝试复现的开源项目 Open-Sora 和 Open-Sora-Plan，此后生数科技、谷歌、快手等陆续发布对标Sora的闭源模型产品，并持续保持迭代，如快手可灵2024年6月上线1.0版本后、 9 月升级 1.5 版本、12 月升级到 1.6 版本，内部测评 1.6 版本相较上一版本性能提升 195%。目前市面上的视频生成产品，包括海外的 Sora、Veo2、Runway、Luma、Pika 和国内的可灵、海螺、即梦、Vidu、混元、通义万相。考虑到视频生成的主要产品均是 2024 年才密集发布，我们认为可以重点关注技术和产品迭代情况。

现有玩家里，Tier1 为谷歌 Veo2、OpenAI Sora、快手可灵、Minimax 海螺、生数科技 Vidu，如何筛选核心指标及评判？目前市面上对视频生成模型的评价体系主要围绕三个维度展开：一是生成视频的真实性和美学效果：包括视觉吸引力、趣味性、颜色、风格等。我们理解对于这个指标，一梯队的厂商无明显差异，但能和二梯队厂商拉开差距；二是语义对齐：衡量用户输入的 prompt 和生成视频的对齐和遵循程度。从这个层面，我们理解为有LLM模型能力储备的厂商如阿里、字节或能快速迭代出语义遵循表现较好的产品；三是视觉质量：主要衡量生成内容的时间一致性（是否会出现变形伪影、模糊或扭曲）、运动完整性和自然性（运动量和幅度、以及对物理规律的理解和仿真）综上，我们认为，尤其对于一梯队厂商来说，视觉质量是更核心的指标（在 LLM 模型开源趋势下，不同视觉生产模型的语义对齐能力或能看齐）。参考 Vbench 的测评体系，其对视觉质量的评价相对全面，主要基于主体一致性、背景一致性、时间闪烁、运动平滑性、动态度这 5 个细分指标，快手可灵表现优异。Vbench 是由上海人工智能实验室、南阳理工大学 S-lab、香港中文大学、南京大学联合提出的视频生成模型评测体系，提出了 16 个分层和解耦的评测维度，主要分为两大类，视频质量和视频条件一致性。视频质量强调时间维度上的一致性、运动平滑性、动态程度和美学价值，视频条件一致性强调 T2V的视频-文本一致性和对齐程度。从测评情况看，快手可灵（测评中为 1.0 版本）在时间维度的一致性上表现优秀，且视频中生成的运动平滑度高、对物理定律的遵循较好。此外我们了解到，实际在工业化场景应用中，如游戏、短视频、广告、电商商品视频等，更关注精准控制，但目前已有的评价体系未有进行测评刻画。精确控制衡量的是对生成内容的局部细节调整、以及对于用户指令变化进行精确地控制修改，在这个指标下 Sora、Vidu、可灵表现突出。

此外，我们以 Google 内部测评的结果来对可灵排位和领先性做交叉验证，其内评结果显示快手可灵 1.5 仅次于谷歌 Veo2。谷歌发布 Veo2 时，基于 Meta 的 MovieGenBench 基准数据，对用户偏好 Veo2 或对比模型（Sora、Meta 的 Movie Gen、快手可灵、海螺）的情况做了测评，测评结果显示偏好对比模型占比最高的是可灵，有 32.6%的用户在和 Veo2 的对比下选择快手可灵。若综合考虑偏好可灵和认为两个模型打平的用户情况，则只有可灵的偏好度占比超过 50%。此外在语义遵循这个层面，有 36.6%用户认为可灵表现更胜一筹。

综上所述，我们认为文生视频模型的技术发展已经进入到明显加速期，以主流架构 DiT 为基础技术路径，海外 OpenAI Sora、谷歌 Veo2、Luma，以及国内快手可灵、Vidu、海螺、阿里通义、字节即梦、腾讯混元均进入产品快速迭代周期，一梯队厂商主要为 OpenAI Sora、谷歌 Veo2 和快手可灵等。技术能力的核心要素为视觉质量和精确控制，可灵在这两个维度上的综合表现均为领先状态。因此，我们认为随着多模态技术持续演进、成本进一步下降，产品和商业化的演进和落地将会进入发展新周期。

2. 现为视频多模态阶段一，除技术外，可跟踪产品和商业化边际变化

24 年主流产品均快速迭代，快手迭代速度保持领先。我们认为在现在多模态视频技术水平处于周期发展的阶段一，技术为核心观察指标，但也需关注各家产品变化情况。从过去的2024年，视频生成模型厂商基本迭代版本数在 3~5 个版本，其中可灵基本保持 3 个月一次版本迭代并做到全量上线，迭代速度保持领先。从生成视频时长看，目前多数能生成 5~10s 的视频，分辨度多在 720p/1080p，整体差异不大。从各产品主要功能看，Sora、可灵、Runway 有较丰富的功能。现有的产品实际生成效果对比下，可灵的细节控制、场景的细致程度更好。我们预期 2025 年产品迭代速度会加快，可灵有望持续保持领先优势。

视频生成产品访问量快速增长，海螺、可灵、Sora 领先。从视频生成产品的用户访问量来看， 2025 年 2 月海螺、可灵、Sora 位居 Top3，分别为 2756 万、1591 万、1050 万；从独立访客数看，海螺、Sora、可灵分别以 634 万、592 万、376 万保持领先。具体从流量的地区分布看用户差异，快手可灵的第一大流量来源为美国，占比 14.18%，仅次于本土产品 Sora 的 32.09%，高于 Veo2 的 9.84%，且高于其他国内产品如海螺、Vidu、即梦。对比视频生成产品和 Top AI 产品的访问量量级情况，存在差距，可持续跟踪未来 gap 趋势反映技术成熟度和用户接受度情况。2025 年 2 月 ChatGPT web 端用户访问量为 40.4 亿，国内 web 端用户访问量最大为 DeepSeek 为 5.7 亿，视频生成产品与相对成熟态的 ChatBot 应用相比存在较大差距，说明目前视频生成产品发展仍处于早期阶段，距离达到产品 ToC 大范围应用仍有距离，需要产品能力提升和成本进一步下降。

整体行业商业化均处于早期阶段，未来创作门槛进一步降低、社区生态形成后变现方式更具想象空间。我们的观点在于，目前处于技术快速进步期、视频推理的算力成本未大幅下降阶段，对应产品发展初期阶段，当前商业化方式主要以工具属性收费为主。未来随着技术进步、成本进一步降低，以及产品的进阶，商业模式会发生变化。对比国内外主流视频生成大模型，各公司目前针对 C 端均采用会员付费体系、针对 B 端采用 API 接口调用，会员体系为用户提供差异化效果体验（如在分辨率和部分特色功能上），具体为每月给予一定量免费视频生成额度，若需使用更多相关功能或生成更高质的视频则需通过额外付费成为会员解锁。目前从披露的商业化流水数据来看增速较好，如 Runway2024 年 12 月的年化收入为 8400 万美元，相较 6 月的年化收入 2800 万美元增长了 2 倍；快手可灵 ToC 端的单月流水（24Q3）为千万量级，起量较快；ToB 端可灵在 2024 年 9 月开放了 API 服务，涵盖了视频生成、图像生成和虚拟试穿等模块，电商、广告主等企业客户可以将可灵模型融入自身系统，以提升内容创作的效率，通过提供定制化 API 服务探索收入，这将是可灵 25 年的重点发力方向。从单条 5s 视频的生成成本看，除了 Runway 的 Gen-3 Alpha 价格较高达到 8.17 元/条，其余产品的单条 5s 视频生成成本多在 1~4 元。未来随着视频生成模型的不断迭代完善，商业化路径也会逐渐清晰，我们判断会有变现更高的商业模式出现。展望来看，初期工具应用积累下来的创作者沉淀为种子用户，新的社区生态和环境下，可以探索类似接商单的商业模式，除了 API 收入，视频生成大模型公司或可基于订单金额分成形式进一步拓展收入空间。

参考报告

快手研究报告：看好快手可灵卡位，多模态视频生成全球领先.pdf

快手研究报告：看好快手可灵卡位，多模态视频生成全球领先。多模态视频生产工具带动内容生态新周期可期，关注优秀技术+产品。纵观多个技术周期，技术平权趋势下内容创作门槛的持续下降，带动新平台新流量的发展。因此站在AI新周期“技术-社区-商业化”的叙事逻辑下，我们判断随着技术持续提升、算力成本持续下降，将带动多模态视频生产工具大规模使用，内容生态将在现有量级基础上进一步指数级提升，形成下一代内容生态【指标：创作者在用户中占比，~0.1%(电影、长视频等)→20%+(短视频时代)→更高（AIGC时代）】。站在该时点，现阶段谁更具备进入下一周期的可能性且持续领先...

查看详情

国内厂商视频生成模型布局进展如何？

1. 视频生成模型以 DiT 为主流架构，以快手为代表的国内厂商快速取得技术突破

2. 现为视频多模态阶段一，除技术外，可跟踪产品和商业化边际变化

快手研究报告：看好快手可灵卡位，多模态视频生成全球领先.pdf

视频物联网商业化落地应用情况如何？

视频行业供需及出海情况如何？

海内外视频行业发展现状如何？

视频行业流量及商业化进展如何？

移动视频发展现状及趋势分析

5G时代的视频技术基本趋势是什么？

各视频平台营收情况如何？

视频广告有哪些分类？

视频发展呈现怎样的趋势？

产业类视频与消费类视频有何区别？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王

国内厂商视频生成模型布局进展如何？

1. 视频生成模型以 DiT 为主流架构，以快手为代表的国内厂 商快速取得技术突破

2. 现为视频多模态阶段一，除技术外，可跟踪产品和商业化 边际变化

1. 视频生成模型以 DiT 为主流架构，以快手为代表的国内厂商快速取得技术突破

2. 现为视频多模态阶段一，除技术外，可跟踪产品和商业化边际变化