2025年AI应用行业系列报告：AI视频生成，商业化加速，国产厂商表现亮眼

来源：国元证券
发布时间：2025/07/01
浏览次数：574
举报

相关深度报告REPORTS

AI应用行业系列报告：AI视频生成，商业化加速，国产厂商表现亮眼.pdf

AI应用行业系列报告：AI视频生成，商业化加速，国产厂商表现亮眼。技术路径：从GAN-Transformer-DiffusionModel-DiT，技术演进推动行业进入可商用阶段：20世纪90年代以来，AI视频生成持续迭代，经历了多个关键技术的突破，经历了从静态图像序列拼接成视频流-GAN-Transformer-DiffusionModel-DiT的技术演进，生成内容丰富度以及可控性持续提升。Sora验证了Diffusion和Transformer结合的有效性，并带动DiT架构逐渐成为当前重点方向。行业进入商业化发展快轨，根据FortuneBusinessInsights预计2032年全球规...

1. 技术路径：从GAN-Transformer-Diffusion Model-DiT

技术路径探索，从图像拼接生成-GAN-Transformer-Diffusion Model-DiT：相比于图片生成视频生成更为复杂，若按帧率24 帧/秒，一条5秒的视频就百余张图像合成，同时视频生成还需要考虑时序连贯性、空间一致性等问题。20世纪90年代以来，AI 视频生成持续迭代，经历了多个关键技术的突破，经历了从静态图像序列拼接成视频流-GAN-Transformer-Diffusion ModelDiT的技术演进，生成内容丰富度以及可控性持续提升。

VAE（Variational Autoencoder 变分自编码器）于2013年由Kingma和Welling提出，2015开始被应用于视频预测任务，通过编码器将输入数据映射到潜在空间，然后通过解码器从潜在空间生成数据。VAE生成视频内容存在模糊等问题。

GAN（Generative Adversarial Networks,对抗生成网络）于2014年由Ian Goodfellow等人提出，2016年左右开始用于视频生成，主要由生成器（Generator）和判别器（Discriminator）两部分组成，生成器负责生成数据，判别器负责判断数据的真实性，两者在训练过程中不断竞争，生成器学习产生越来越真实的数据，而判别器学习更好地区分真假数据，通过两者相互博弈来实现高质量图片或是视频的生成。对抗训练提升了生成内容的质量，但存在多样性有限、训练不稳定容易出现梯度消失和模式崩溃等问题。VAE+GAN，VAE与GAN常常结合使用，使生成的视频内容更加多样化，并改善生成视频的清晰度和真实性。基于GAN的视频生成产品包括VideoGAN、TGAN等。

Transformer: Transformer架构于2017年由Google团队提出并逐渐应用于视频生成领域。2020年ViT论文发表，2021Google发表了Video Vision Transformer。Transformer架构更好的建模像素点之间的上下文关系，提升视觉内容生成质量，缺点在于高昂的成本和较慢的生成速度。代表性产品包括VideoGPT、Phenaki等。

Diffusion Model：扩散模型灵感源于热力学，由一个逐级添加高斯噪声的前向扩散过程和一个逐级预测并消除噪声的反向过程组成。2020年Ho等人的论文《Denoising diffusion probabilistic models》(DDPM) 发表成为关键节点，2021年Latent Diffusion Models论文发表，将扩散空间从图像空间转移到潜空间（Latent Space），大幅提升计算效率。 2022年Video Diffusion Model论文发表，通过加入时序注意力层的方式将扩散模型中的二维U-Net扩展至三维，将扩算模型应用于视频生成任务。另外，基于LDM的开源系列模型Stable Diffusion推出，进一步推动扩散模型在视觉生成领域的主导作用。

DiT：2022年12月《Scalable Diffusion Models with Transformers 》论文发表，提出将传统扩散模型的U-Net替换为 Transformer，从而提升传统扩散模型的可扩展性。采用AdaLN-Zero（自适应归一化）注入条件信息（文本/图像/轨迹），取代交叉注意力。2024年2月OpenAI发布Sora，验证了Diffusion和Transformer结合的有效性，并带动DiT架构成为重点方向。根据 Sora发布的技术文章，Sora模型先将视频压缩到低维潜在空间中，然后将表示分解为时空patch，从而实现了视频的“patch 化”，采用DiT架构，在多个领域展示了显著的扩展性能。同时对比过去的视频生成模型，Sora生成视频时长显著提升（60 秒），对于自然语言和物理世界规律有了更强的理解能力。

Sora为行业带来深刻启发，不少厂商跟进DiT架构，并在此之上进行创新。以可灵为例，可灵使用了DiT架构，同时对模型中的隐空间编/解码、时序建模等模块进行了升维处理。Seedance1.0引入精确描述模型提升数据多样性与可用性，统一高效的预训练框架实现多镜头切换与多模态输入，后训练构建复合奖励系统提升画面生动性、稳定性和美感。

行业围绕提升效率和可控性以及长视频生成等目标持续迭代。比如扩散模型的优化策略和模型蒸馏、扩散模型的混合专家（MoE）架构、引入人类反馈的强化学习、分层生成等，另外除了DiT架构之外，其他几种混合架构研究也在持续推进。

2. AI视频生成行业：逐步进入可商用阶段，应用及商业化加速

全球视频内容占互联网流量的比重持续攀升预计超8成，根据Cisco的预测，2022年视频内容占互联网流量的比重预计由2017 年的75%增加至82%，而中国方面，Cisco预测2020年中国视频内容流量占比达到87%。

根据Fortune Business Insights，预计到2032年AI视频生成全球规模达到25.63亿美金，约合184亿人民币。根据Fortune Business Insights测算，2024年AI视频生成全球规模为6.15亿美金，预计2025年达到7.17亿美金，同比增长17%，预计到2032 年达到25.63亿美金，2025至2032年的复合增速为20%。分应用来看，AI视频生成下游应用包含2B及2C两端，根据Fortune Business Insights的统计，目前AI视频生成下游需求最大的应用方向为市场营销及广告，而社交媒体的应用增长最快。

驱动因素：价格和性能共同驱动行业成长

AI视频生成产业规模受到价格以及模型能力的双重驱动。价格方面，目前国内外主流模型的API单秒价格在0.2-1元/秒。目前主流产品采取积分制，大部分支持API接入，价格方面目前国内外主流模型的API单秒价格在0.2-1元/秒，相对价格较高的Veo2生成价格为0.35美元/秒（约2.51元/秒），根据量子位智库测算，顶级动画电影制作成本约为十万元级/秒，本土动画电影制作成本在万元级/秒，本土TVC视频制作成本在千元级/ 秒，不论是对比广告视频或者影视剧/电影的单秒成本，AI视频生成均具有极大成本替代优势。

模型能力提升推动可用性。视频大模型主要能力评估标准包括生成效率、内容语义的一致性、视频质量（包括时空一致性、物理规则遵循、叙事连贯性、长序列稳定性、单帧图像的生成质量等）、动态表现、画面美学等。时长方面，当前主流的生成时长为5-10秒，随着模型迭代时长上限逐渐突破，Veo2支持理论最高2分钟的4K视频生成，可灵大师版可以通过续写方式将视频延长至3分钟，时长突破有望进一步满足叙事需求扩展下游应用。生成速度方面，随着硬件性能提升以及模型迭代，整体生成速度大幅提高，以Seedance1.0为例，根据官方数据，对于 5 秒 1080p 分辨率的视频生成任务，实测推理耗时 41.4 秒（基于 L20 测试），效率大大提升。生成质量方面，现阶段AI生成视频常常需要“抽卡”，用户需反复尝试，才能生成相对理想结果，随着产品迭代，“抽卡率”有望降低。丰富度方面，声音内容陆续添加，如Veo3通过将视频像素转化为语义信号，实时生成匹配的视频声音，大大增强了视频生成可用性。

行业应用：B端应用场景多元化，C端内容持续破圈

2B下游应用包括影视内容创作、商业广告、电商营销、城市文旅、动画教育、游戏娱乐等。以电商服装行业为例，由于高频上新的需求，视频内容成本高企，AI视频内容生成极大解决该痛点。影视短片方面，AI短剧应用逐渐成熟，比如快手星芒短剧于24年7月13日推出国内首部AIGC原创奇幻微短剧《山海奇镜之劈波斩浪》，导演陈坤曾在接受《综艺报》的采访中表示，玄幻和科幻是传统影视的两大痛点，CG特效成本高、周期长，AI可以有效缩短制作周期、降低制作成本，效果可以达到传统特效的70%到80%。根据短剧自习室数据，该剧累计播放量突破5000万。

2C方面，创意玩法持续拉近产品与C端用户距离，内容持续破圈。比如可灵的“毛绒”特效、PixVerse的“毒液”特效等，引发在社媒上广泛传播。

产品及竞争格局：可灵等国产厂商表现突出

从模型表现来看，Seedance1.0、Veo2/3、Kling2.0、Sora、MiniMax产品表现居前，国内模型水平达到全球领先水平。根据Artificial Analysis最新AI视频模型表现排行，文生视频方面，字节跳动的Seedance1.0、Google的Veo3/Veo2、以及快手 Kling2.0、OpenAI的Sora表现前五；在图生视频方面字节跳动的Seedance1.0、MiniMax的Hailuo02、Google的Veo3以及快手 Kling2.0/1.6排名前五。

从商业化来看，根据The Information，Runway24年12月ARR（Annual Recurring Revenue）达到8400万美金，25年底冲击 2.65亿美金，可灵2025年3月年化收入运行率突破1亿美金，4月及5月单月付费金额均突破1亿人民币。

使用量份额角度来看，Kling表现突出。根据Poe发布的数据，截止2025年5月4日前一周使用份额情况，Kling市场份额达到了 30%，其中Kling2.0大师版4月底推出后仅三周便占据了21%的市场份额，Runway使用量份额排名第二达到23.6%，Veo-2位列第三，份额为16.6%。

从web端访问量及APP端MAU来看，根据AI产品榜统计的5月AI视频产品web端访问量来看，Sora、Kling、Loom、Hailuo、 PixVerse访问量排名前五。移动端来看，即梦5月MAU达到3065万，PixVerse达到1998万，分别排进5月全球AI APP MAU的第11位以及第23位。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）