2026年快手_W公司研究报告：AI视频对应千亿级市场，可灵占据核心卡位

来源：中信建投证券
发布时间：2026/02/09
浏览次数：125
举报

相关深度报告REPORTS

快手_W公司研究报告：AI视频对应千亿级市场，可灵占据核心卡位.pdf

快手_W公司研究报告：AI视频对应千亿级市场，可灵占据核心卡位。2月4日，可灵更新3.0版本，视频生成能力近翻倍，核心升级包括15s超长生成、分镜能力、语言能力、升级版的视频3.0Omni，在生成时长、多模态输入、细节控制等核心指标上全面突破。目前看快手AI战略已进入正轨，并开始显现“飞轮效应”。可灵模型&产品力居全球第一梯队，商业化快速起量，两年时间内已完成从“技术验证”到“商业模式跑通”的关键跨越，作为第二增长曲线弹性较大。除可灵贡献新增长曲线外，AI全链路赋能快手原有业务形态，提升效率。快手构建了一个以One...

从多元探索到架构统一：AI 视频生成的 DiT 演进之路

AI视频生成技术经历了从多路径探索到架构收敛的演化过程，目前已步入以 DiT（Diffusion Transformer）为主导的成熟阶段。其发展可分为三个关键阶段。

初期阶段（2016–2020）：从图像到视频的 0→1，基于 GAN/VAE架构。采用图像拼接方式生成视频，只能生成小于 3 秒的极短视频，且普遍存在跳帧、重力等物理规律缺失、光影穿帮等问题，只能覆盖飘动旗帜、静态人物眨眼等简单局部运动场景。本阶段更多是技术验证，而非可规模变现的生产力，尽管能力有限，这一阶段完成了从“图像生成能力成熟”到“视频生成需求显性化”的关键过渡。它用“小于 3 秒、弱物理、弱控制”的硬约束，清晰地刻画了真正可商用视频生成系统必须跨越的门槛——长时序一致性、物理拟真与结构化可控性。这些门槛，最终在 DiT 架构主导的第三阶段被系统性纳入设计目标，并成为 2024 年以来视频大模型竞逐的核心方向。

探索阶段（2021–2023）：AI视频从“可演示”迈向“可用”的关键探索期，行业在自回归。 Transformer 与扩散模型两条路线间剧烈分化，并逐步走向二者融合，为之后 DiT 统一架构的出现奠定技术和生态基础。自回归路径以 Google Phenaki 为代表，实现分钟级长视频但画质与真实感明显不足；扩散路径以 Make-A-Video、ImagenVideo、Runway Gen-2 为代表，画质显著提升但时长受限，训练与推理成本高企。商业上，Runway Gen-2、Pika 等少数产品率先公测并探索订阅/按量计费模式，验证了“文生视频”在 C 端创作者与 B 端创意制作中的真实需求，但受限于时序一致性、物理逻辑和成本，整体仍处 “体验式收费”阶段。

收敛阶段（2024 至今）：DiT 架构的出现并逐渐收敛带来 AI 视频商业化加速和普及。以 Sora 为代表的 DiT 架构，通过 spacetime token+全局注意力实现 6–60 秒视频、一致性≈89%，首次满足长时序一致性 +物理拟真+结构化可控三大门槛，成为 AI 视频主流技术与商业化底座，Sora2、Veo3.1、快手可灵/Kling 2.5 Turbo、Vidu Q1 等模型通过多模态融合、镜头控制与成本优化，将 DiT 从“炫技 Demo”推进为影视、广告、电商等行业的基础设施。后续 DIT 架构有望将向原生多模态/世界模型演进。

2024 年全球视频生成模型进入密集发布与快速迭代期，标志着行业重心从图像生成全面转向视频生成。模型综合能力的跃升，已成为科技公司的核心竞争维度。OpenAI、Google、Runway、Luma、字节跳动、快手、MINIMAX 等领先企业，在生成时长、画面清晰度、动作连贯性及生成速度等关键指标上不断突破，使得视频生成的“商用门槛”大幅降低。这一轮集中发布的产品浪潮清晰表明：视频大模型已成为全球科技公司继通用大模型之后的新一代技术主战场。由于视频内容相较于图像具有更显著的商业价值，且市场需求呈现结构性增长，视频生成能力正成为各类平台提升内容生产效率、优化供给结构的关键战略抓手。

AI 视频赛道高速扩张，渗透率有望快速提升

AI视频商业化场景主要包括电影、电视剧、动漫、广告各个方面视频制作成本。测算下来 2025 年视频制作领域的总体成本投入约为 1218 亿美元，为 AI可渗透市场空间。假设 AI能够降低 60-70%的成本（按 65% 计算），AI渗透率（目前非常低，只有个位数）提升至 30%，则 AI 视频的市场空间可达 128 亿美金。

自下而上看，预计视频生成式 AI的全球潜在市场规模（TAM）可达 5000-8000 万用户，年收入 110-276 亿美元。

2023–2026 年，AI视频生成在 DiT 架构加持下，已从“小众创意工具”跃迁为广告、电商、短剧与专业创作者生态中的“基础生产力”，商业化进入高速扩张通道。下游应用端，广告、电商营销与影视短剧成为率先放量的三大场景。从长期发展来看，To C 市场的增长潜力远高于 To B 市场。全球近 57 亿社交媒体用户构成庞大的需求基础，随着 AI 技术持续降低创作门槛，普通用户的 UGC（用户生成内容）需求将被全面激活——从日常生活记录到个性化创意表达，多元场景将催生海量新增需求。

模型能力：国内外技术差距快速缩小，国产模型表现亮眼

海外模型以 OpenAI的 Sora 系列和 Google 的 Veo 3 为代表，长期在物理世界模拟与多模态深度融合等前沿领域保持领先。2025 年以来，技术升级焦点明确转向多模态融合。例如，Google Veo 3 实现了高精度音画同步生成，为电影级复杂内容创作奠定了新基础。25 年 9 月，OpenAI 发布的 Sora 2 在 DiT 架构之上，进一步升级了多模态融合能力与叙事逻辑，能够自动匹配专业镜头调度，并支持多片段无缝衔接，理论上可实现无限时长视频的生成。国内模型发展迅猛，技术层面对标海外头部，性价比领先。以快手可灵、字节跳动即梦、生数科技 Vidu 为代表的国产模型，不仅在生成质量上与国际主流看齐，更在中文语义理解与本土化场景适配方面展现出独特优势。2025 年，国产模型在 DiT 架构优化上取得实质性突破：可灵 2.5 Turbo 将 1080P 视频的生成成本降低了 30%；即梦 1.0 在中文特色场景（如古风剧镜头生成）中，画面一致性高达 92%。12 月，快手可灵 AI 密集更新，发布可灵 O1 模型（全球首个支持全模态编辑的视频生成模型）和 2.6 版本（首次实现音画同出，对标 Google Veo 3）。

在海外闭源阵营中，Sora、Veo 与 Runway 构成了当前 AI视频生成的“第一方阵”，但各自技术路径与商业定位存在明显差异：

OpenAI Sora：长时视频+物理模拟增强。Sora 以最长 25 秒高清内容（可延伸至更长时长）和较强的物理模拟能力著称，擅长复杂叙事与场景构建，在光影、重力与复杂运动模拟方面领先。不过，其指令执行易混乱、运镜逻辑不稳定，并且尚未完全开放商用，单价也偏高。Sora 更适合影视级长视频创意探索、概念预演等前沿场景。

Google Veo 3.1：光影质感+音画同步+生态整合。Veo 3.1 聚焦光影效果与生成效率优化，支持 720p/1080p 分辨率与最长 148 秒视频延展，具备原生音画同步与对象级编辑能力。其与 YouTube、Gemini、Google Photos、Canva 等生态深度整合，通过订阅（Gemini Ultra/Pro、Veo3 平台）、Vertex AI API、Flow 专业工具与广告收入四条路径变现，订阅费用在 37.5–130 美元/月区间。Veo 更适合对视觉风格稳定性、光影质感要求高的广告与品牌素材制作。

Runway Gen-4/4.5：全流程影视后期工具链。Runway 以功能全面性见长，重点在视频重剪辑、绿幕合成、多帧修改等后期工具链，提供多种运镜控制与局部动画编辑能力。其视频生成能力虽处于第一梯队，但在物理一致性与人像细节上仍偶有瑕疵，且当前缺乏原生音频生成，需要后期对接声音工作流。综合来看，海外通用模型整体在长时长、物理世界建模与英语语境下的多模态理解上具备先发优势，但在中文语义、本地化场景与价格上存在明显短板。

国内 AI视频生成格局呈现出“可灵+即梦+海螺+爱诗+生数”多点开花、各有侧重的格局。

可灵（Kling）：影视级质感+多模态编辑+平台闭环”的高端通用视频模型。技术层面：CineMaster 目标—相机联合控制，支持复杂物理模拟与多模态编辑，角色运动准确率与镜头切换流畅度达专业水准；场景侧，可灵深度适配电影预演、广告分镜、游戏 CG 等专业商用场景，P 端用户贡献收入超过 60%。

即梦：聚焦数字人情感表演与多场景适配，通过 OmniHuman 模型实现单图+音频驱动的情绪动作同步，支持多人互动与节奏性表演，适用于剧情短剧、数字歌手表演与文旅宣传片。

海螺（Hailuo）：以高帧率输出与低成本优势突围，可实现 1080p/30fps 高清生成，角色情感细腻、物理模拟精准，生成成本仅为海外模型的约 1/6，并支持 37 种语言本地化创作，多用于电商广告与社交媒体爆款视频。

爱诗（PixVerse）：主打 2C 轻量化创作与社群生态，强调降低使用门槛，在动态效果与一致性方面持续优化，是 MV与创意视频的重要工具。

生数（Vidu）：以生成速度与风格化表现为亮点，10 秒内生成视频，多主体一致性与漫画图片动画化能力突出，适合儿童教育动画、IP 内容动态演示与多镜头广告制作。

AI 视频行业竞争格局呈现 “技术层引领、内容层赋能、生态层整合”的多强并存态势。技术层：OpenAI、Google 在底层 DiT 与多模态世界模型上仍具前沿优势；国内快手、字节、生数等依托本土语义与场景适配，在模型力与性价比上快速追赶，可灵与 Vidu 已在 VBench、Artificial Analysis 等权威榜单中对标甚至反超海外头部模型。内容层：传统影视与动漫公司积极拥抱 AI 视频，在短剧、AI 漫剧等方向探索新内容形态和商业模式，验证“降本增效 + 创新供给”的双重价值。生态层：大型平台型公司通过“生成–分发–变现”闭环，将 DiT 模型深度融合入短视频、电商、长视频平台，形成流量与算力的飞轮效应。在 DiT 主导的收敛阶段，边际决定胜负的不再是“能不能生成”，而是谁能在“长时序一致性+多模态能力+成本效率+场景深度”上跑得更快。AI 视频产品的核心竞争力主要围绕两大维度展开：模型性能与产品表现力，二者相辅相成，共同塑造产品的市场竞争力。模型性能指向底层技术的专业适配能力，例如是否能够实现更高精度的生成效果、更真实的物理模拟以及更稳定的输出品质。产品表现力则关注功能实用性与用户体验，涵盖视频时长、特效支持、交互设计、分辨率选项等直接影响使用感受的参数。短中期看，关注具备自研 DiT 能力、同时掌握大规模内容生产和流量分发能力的平台型公司；中长期关注向世界模型与 Agent 化进化、能在游戏、影视等高门槛场景中重构生产范式的技术型厂商。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）