2026年快手_W公司研究报告:AI视频对应千亿级市场,可灵占据核心卡位

  • 来源:中信建投证券
  • 发布时间:2026/02/09
  • 浏览次数:125
  • 举报
相关深度报告REPORTS

快手_W公司研究报告:AI视频对应千亿级市场,可灵占据核心卡位.pdf

快手_W公司研究报告:AI视频对应千亿级市场,可灵占据核心卡位。2月4日,可灵更新3.0版本,视频生成能力近翻倍,核心升级包括15s超长生成、分镜能力、语言能力、升级版的视频3.0Omni,在生成时长、多模态输入、细节控制等核心指标上全面突破。目前看快手AI战略已进入正轨,并开始显现“飞轮效应”。可灵模型&产品力居全球第一梯队,商业化快速起量,两年时间内已完成从“技术验证”到“商业模式跑通”的关键跨越,作为第二增长曲线弹性较大。除可灵贡献新增长曲线外,AI全链路赋能快手原有业务形态,提升效率。快手构建了一个以One...

从多元探索到架构统一:AI 视频生成的 DiT 演进之路

AI视频生成技术经历了从多路径探索到架构收敛的演化过程,目前已步入以 DiT(Diffusion Transformer)为主导的成熟阶段。其发展可分为三个关键阶段。

初期阶段(2016–2020):从图像到视频的 0→1,基于 GAN/VAE架构。采用图像拼接方式生成视频, 只能生成小于 3 秒的极短视频,且普遍存在跳帧、重力等物理规律缺失、光影穿帮等问题,只能覆盖飘 动旗帜、静态人物眨眼等简单局部运动场景。本阶段更多是技术验证,而非可规模变现的生产力,尽管 能力有限,这一阶段完成了从“图像生成能力成熟”到“视频生成需求显性化”的关键过渡。它用“小 于 3 秒、弱物理、弱控制”的硬约束,清晰地刻画了真正可商用视频生成系统必须跨越的门槛——长时 序一致性、物理拟真与结构化可控性。这些门槛,最终在 DiT 架构主导的第三阶段被系统性纳入设计目 标,并成为 2024 年以来视频大模型竞逐的核心方向。

探索阶段(2021–2023):AI视频从“可演示”迈向“可用”的关键探索期,行业在自回归。 Transformer 与扩散模型两条路线间剧烈分化,并逐步走向二者融合,为之后 DiT 统一架构的出现奠定 技术和生态基础。自回归路径以 Google Phenaki 为代表,实现分钟级长视频但画质与真实感明显不足;扩 散路径以 Make-A-Video、ImagenVideo、Runway Gen-2 为代表,画质显著提升但时长受限,训练与推理 成本高企。商业上,Runway Gen-2、Pika 等少数产品率先公测并探索订阅/按量计费模式,验证了“文生 视频”在 C 端创作者与 B 端创意制作中的真实需求,但受限于时序一致性、物理逻辑和成本,整体仍处 “体验式收费”阶段。

收敛阶段(2024 至今):DiT 架构的出现并逐渐收敛带来 AI 视频商业化加速和普及。以 Sora 为代表 的 DiT 架构,通过 spacetime token+全局注意力实现 6–60 秒视频、一致性≈89%,首次满足长时序一致性 +物理拟真+结构化可控三大门槛,成为 AI 视频主流技术与商业化底座,Sora2、Veo3.1、快手可灵/Kling 2.5 Turbo、Vidu Q1 等模型通过多模态融合、镜头控制与成本优化,将 DiT 从“炫技 Demo”推进为影 视、广告、电商等行业的基础设施。后续 DIT 架构有望将向原生多模态/世界模型演进。

2024 年全球视频生成模型进入密集发布与快速迭代期,标志着行业重心从图像生成全面转向视频生成。 模型综合能力的跃升,已成为科技公司的核心竞争维度。OpenAI、Google、Runway、Luma、字节跳动、快 手、MINIMAX 等领先企业,在生成时长、画面清晰度、动作连贯性及生成速度等关键指标上不断突破,使得 视频生成的“商用门槛”大幅降低。 这一轮集中发布的产品浪潮清晰表明:视频大模型已成为全球科技公司继通用大模型之后的新一代技术主 战场。由于视频内容相较于图像具有更显著的商业价值,且市场需求呈现结构性增长,视频生成能力正成为各 类平台提升内容生产效率、优化供给结构的关键战略抓手。

AI 视频赛道高速扩张,渗透率有望快速提升

AI视频商业化场景主要包括电影、电视剧、动漫、广告各个方面视频制作成本。测算下来 2025 年视频制 作领域的总体成本投入约为 1218 亿美元,为 AI可渗透市场空间。假设 AI能够降低 60-70%的成本(按 65% 计算),AI渗透率(目前非常低,只有个位数)提升至 30%,则 AI 视频的市场空间可达 128 亿美金。

自下而上看,预计视频生成式 AI的全球潜在市场规模(TAM)可达 5000-8000 万用户,年收入 110-276 亿美元。

2023–2026 年,AI视频生成在 DiT 架构加持下,已从“小众创意工具”跃迁为广告、电商、短剧与专业创 作者生态中的“基础生产力”,商业化进入高速扩张通道。下游应用端,广告、电商营销与影视短剧成为率先放 量的三大场景。从长期发展来看,To C 市场的增长潜力远高于 To B 市场。全球近 57 亿社交媒体用户构成庞 大的需求基础,随着 AI 技术持续降低创作门槛,普通用户的 UGC(用户生成内容)需求将被全面激活——从 日常生活记录到个性化创意表达,多元场景将催生海量新增需求。

模型能力:国内外技术差距快速缩小,国产模型表现亮眼

海外模型以 OpenAI的 Sora 系列和 Google 的 Veo 3 为代表,长期在物理世界模拟与多模态深度融合等前 沿领域保持领先。2025 年以来,技术升级焦点明确转向多模态融合。例如,Google Veo 3 实现了高精度音画同 步生成,为电影级复杂内容创作奠定了新基础。25 年 9 月,OpenAI 发布的 Sora 2 在 DiT 架构之上,进一步升 级了多模态融合能力与叙事逻辑,能够自动匹配专业镜头调度,并支持多片段无缝衔接,理论上可实现无限时 长视频的生成。 国内模型发展迅猛,技术层面对标海外头部,性价比领先。以快手可灵、字节跳动即梦、生数科技 Vidu 为代表的国产模型,不仅在生成质量上与国际主流看齐,更在中文语义理解与本土化场景适配方面展现出独特 优势。2025 年,国产模型在 DiT 架构优化上取得实质性突破:可灵 2.5 Turbo 将 1080P 视频的生成成本降低了 30%;即梦 1.0 在中文特色场景(如古风剧镜头生成)中,画面一致性高达 92%。12 月,快手可灵 AI 密集更 新,发布可灵 O1 模型(全球首个支持全模态编辑的视频生成模型)和 2.6 版本(首次实现音画同出,对标 Google Veo 3)。

在海外闭源阵营中,Sora、Veo 与 Runway 构成了当前 AI视频生成的“第一方阵”,但各自技术路径与 商业定位存在明显差异:

OpenAI Sora:长时视频+物理模拟增强。Sora 以最长 25 秒高清内容(可延伸至更长时长)和较强的物理 模拟能力著称,擅长复杂叙事与场景构建,在光影、重力与复杂运动模拟方面领先。不过,其指令执行 易混乱、运镜逻辑不稳定,并且尚未完全开放商用,单价也偏高。Sora 更适合影视级长视频创意探索、 概念预演等前沿场景。

Google Veo 3.1:光影质感+音画同步+生态整合。Veo 3.1 聚焦光影效果与生成效率优化,支持 720p/1080p 分辨率与最长 148 秒视频延展,具备原生音画同步与对象级编辑能力。其与 YouTube、Gemini、Google Photos、Canva 等生态深度整合,通过订阅(Gemini Ultra/Pro、Veo3 平台)、Vertex AI API、Flow 专业工具与广告收入四条路径变现,订阅费用在 37.5–130 美元/月区间。Veo 更适合对视觉风 格稳定性、光影质感要求高的广告与品牌素材制作。

Runway Gen-4/4.5:全流程影视后期工具链。Runway 以功能全面性见长,重点在视频重剪辑、绿幕合 成、多帧修改等后期工具链,提供多种运镜控制与局部动画编辑能力。其视频生成能力虽处于第一梯 队,但在物理一致性与人像细节上仍偶有瑕疵,且当前缺乏原生音频生成,需要后期对接声音工作流。 综合来看,海外通用模型整体在长时长、物理世界建模与英语语境下的多模态理解上具备先发优势,但在 中文语义、本地化场景与价格上存在明显短板。

国内 AI视频生成格局呈现出“可灵+即梦+海螺+爱诗+生数”多点开花、各有侧重的格局。

可灵(Kling):影视级质感+多模态编辑+平台闭环”的高端通用视频模型。技术层面:CineMaster 目标—相机联合控制,支持复杂物理模拟与多模态编辑,角色运动准确率与镜头切换流畅度达专业 水准;场景侧,可灵深度适配电影预演、广告分镜、游戏 CG 等专业商用场景,P 端用户贡献收入超 过 60%。

即梦: 聚焦数字人情感表演与多场景适配,通过 OmniHuman 模型实现单图+音频驱动的情绪动作同 步,支持多人互动与节奏性表演,适用于剧情短剧、数字歌手表演与文旅宣传片。

海螺(Hailuo): 以高帧率输出与低成本优势突围,可实现 1080p/30fps 高清生成,角色情感细腻、 物理模拟精准,生成成本仅为海外模型的约 1/6,并支持 37 种语言本地化创作,多用于电商广告与 社交媒体爆款视频。

爱诗(PixVerse): 主打 2C 轻量化创作与社群生态,强调降低使用门槛,在动态效果与一致性方 面持续优化,是 MV与创意视频的重要工具。

生数(Vidu): 以生成速度与风格化表现为亮点,10 秒内生成视频,多主体一致性与漫画图片动画 化能力突出,适合儿童教育动画、IP 内容动态演示与多镜头广告制作。

AI 视频行业竞争格局呈现 “技术层引领、内容层赋能、生态层整合”的多强并存态势。 技术层:OpenAI、Google 在底层 DiT 与多模态世界模型上仍具前沿优势;国内快手、字节、生数等依托 本土语义与场景适配,在模型力与性价比上快速追赶,可灵与 Vidu 已在 VBench、Artificial Analysis 等权威榜 单中对标甚至反超海外头部模型。 内容层:传统影视与动漫公司积极拥抱 AI 视频,在短剧、AI 漫剧等方向探索新内容形态和商业模式,验 证“降本增效 + 创新供给”的双重价值。 生态层:大型平台型公司通过“生成–分发–变现”闭环,将 DiT 模型深度融合入短视频、电商、长视频 平台,形成流量与算力的飞轮效应。 在 DiT 主导的收敛阶段,边际决定胜负的不再是“能不能生成”,而是谁能在“长时序一致性+多模态能 力+成本效率+场景深度”上跑得更快。AI 视频产品的核心竞争力主要围绕两大维度展开:模型性能与产品表 现力,二者相辅相成,共同塑造产品的市场竞争力。模型性能指向底层技术的专业适配能力,例如是否能够实 现更高精度的生成效果、更真实的物理模拟以及更稳定的输出品质。产品表现力则关注功能实用性与用户体 验,涵盖视频时长、特效支持、交互设计、分辨率选项等直接影响使用感受的参数。 短中期看,关注具备自研 DiT 能力、同时掌握大规模内容生产和流量分发能力的平台型公司;中长期关注 向世界模型与 Agent 化进化、能在游戏、影视等高门槛场景中重构生产范式的技术型厂商。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至