2025年计算机行业AI系列报告:一文读懂Sora2核心点

  • 来源:中信建投证券
  • 发布时间:2025/10/09
  • 浏览次数:519
  • 举报
相关深度报告REPORTS

计算机行业AI系列报告:一文读懂Sora2核心点.pdf

计算机行业AI系列报告:一文读懂Sora2核心点。Sora2以“为产品定义功能”的产品思维,构建了从拉新、留存到促活的产品闭环,3天登顶iOS应用榜,开启了P、B、C三端共振的千亿级AI视频生成赛道。据测算,AI视频生成市场中期空间将达到763亿元,长期将达到1554亿元。同时,根据我们正文的测算依据,保守估计SoraAPP每日仅推理成本便高达1400万美元,年化成本超过51.2亿美元,预计将带来持续的算力需求。建议关注两大主线,AI应用推荐以阿里为代表的互联网大厂生态伙伴、Pre-AI环节和垂直场景;算力环节推荐算力和端侧AI相关标的。“为产品定义功能&r...

一、Sora 2 为什么能够爆火?

1.1 视频生成技术发展历程:从范式探索到架构收敛

视频生成技术是一条追求更高生成质量、更长内容时长与更强语义可控性的演进之路。视频生成承接图像 生成技术,早期以生成对抗网络(GAN)和变分自编码器(VAE)为代表,通过生成连续图像帧来构建视频,但受 限于稳定性与扩展性瓶颈,往往只能生成分辨率低、时长短的片段。随着技术不断演进,业内分化出两条并行 路线,Transformer 架构凭借其高效处理视频帧之间时序关系的能力展现出巨大扩展潜力;扩散模型(Diffusion Model)则通过从随机噪声中逐步还原画面的“去噪”范式,在生成质量上取得里程碑式突破。2022 年 1 2 月, 融合二者优点的 Diffusion Transformer(DiT)架构论文发表,经由 OpenAI Sora 产品侧验证后,逐步确立了 其作为视频生成领域主流技术范式的地位。

第一阶段(2017 年以前):图像拼接。VAE 于 2013 年提出,采用编码器-解码器架构,先将图像压缩至低 维度的潜在空间,再由解码器从空间中采样并重建图像,从而学习数据的核心分布。VAE 的目标函数倾向于生成 模糊平滑的图像,难以捕捉高频细节。2014 年发表的 GAN 则引入了对抗性训练机制,由生成器从随机噪声合成 图像,再由判别器进行真伪判别,二者竞争下生成器能够产出更真实的图像,判别器也能够更好区分图像真实 性。然而,由于 GAN 的目标函数没有显式地鼓励生成多样性,生成器在优化过程中往往会找到局部最优解,导 致模式崩溃问题。此外,基于 VAE 和 GAN 的视频生成核心在于将二者生成的图片帧进行拼接,缺乏对长距离时 序关系的有效建模,使得视频只能在短时间连贯,无法维持逻辑与内容的一致性。

第二阶段(2017-202 3 年):多路径探索。为解决前述缺乏时空一致性及图像分辨率不足等问题,业内多种 技术路径并行探索。其中,自回归路径将视频帧视为离散的 Token 序列,并逐个 Token 地预测生成后续内容。 为有效建模视频所需的长距离时序依赖,自回归路径通常采用 Transformer 等序列模型,其一定程度维系了视 频生成的时序连贯性,但串行的生成机制也带来了推理速度慢、误差易于累积等挑战。扩散模型路径则采用并 行“去噪”方式生成整个视频片段,极大地提升了生成画面的质量与稳定性。扩散模型路径早期普遍采用 U-Net 网络架构,催生了以 Runway Gen-2 为代表的系列产品,并迅速成为市场主流,但其在模型规模进一步扩大时逐 渐暴露出扩展性上的瓶颈。

第三阶段(2023 年至今):DiT 引领主流技术趋势。2022 年 12 月,《Scalable Diffusion Models with Transformers》发表,其核心思想在于用 Transformer 架构取代主流扩散模型路径中的 U-Net 骨干网络,并证 明了这种新架构(DiT)拥有卓越的扩展性。2024 年 2 月,OpenAI 发布的 Sora 进一步在产品侧验证了 DiT 的可 行性,Sora 的惊艳效果亦迅速推动 DiT 成为行业公认的主流范式。此后,市场上涌现出系列采用或对标 DiT 架 构的模型,如包括生数科技的 Vidu、Google 推出的 Veo 等,标志视频生成领域已进入 DiT 架构主导的新阶段。

1.2 Sora 2 爆火:产品工程化+社媒裂变

S o ra 2 三天登顶美国 iOS 应用榜。据应用情报提供商 Appfigures 数据,Sora 的 iOS 应用程序首发下载量 5.6 万,并在上线的两天内总计获得了 16.4 万次下载。尽管 Sora 的首日下载量落后于 ChatGPT 和 Gemini,但 考虑其在仅限美国和加拿大地区上线并采用邀请制的情况,其用户偏好可能更强。当地时间 10 月 3 日(周五), Sora 在上线第三天登顶苹果美国应用商店 App Store 的免费应用榜第一名,超越了 OpenAI 的 ChatGPT 和谷歌 的 Gemini。

尽管 S ora 2 尚未发布技术报告,但我们根据现有信息推测其并未在技术上明显突破,而是训练数据、产品 工程化等方面做出优化: 大规模数据训练:据 OpenAI 官网 Sora 2 展示页面表示,Sora 2 的一个重要里程碑是掌握大规模视频数据 的预训练和后训练方法。OpenAI 称,尽管 Sora 2 模型仍存在许多错误,但其证实了进一步扩大视频数据上的 神经网络将使模型更接近模拟现实。 指令遵循与音画同步:Sora 2 在可控性方面也实现了较大突破,其能够执行跨越多个镜头的复杂指令,同时精准地保留世界状态。此外,作为通用的视频音频生成系统,Sora 2 能够创建具有高度真实感的复杂背景音 景、语音和音效。Sand.ai 创始人曹越在接受极客公园访谈时表示:“从纯技术角度看,把声音做好,可能不像 把视频或语言做好那么难。但从产品和用户视角看,声音是决定性的。正是因为 Sora 能让音画同步输出,才 使得普通用户生成的视频具备了直接的可消费性,越过了 C 端产品普及的临界点。” 提示词增强/重写:尽管 Sora2 是视频模型,但其亦可以解决 LLM 基准测试中的问题。Epoch AI 在小部分 GPQA 问题上测试了 Sora 2,其得分为 55%(GPT-5 得分为 72%)。据 Epoch AI 推测,Sora 2 用户的提示可能在 视频生成之前被 LLM 重写,即 LLM 层可能会先解决问题,然后将解决方案明确地包含在重写的提示中。实际上, 混元亦于 9 月开源了 PromptEnhancer 技术架构,仅通过“思维链(CoT)提示重写”的思路使 AI 生图的对齐精 度大幅提升,在抽象关系理解、数值约束等复杂场景中,准确率甚至能提升 17%以上。

产品侧重视 AI+社交则是 Sora 2 爆火的另一重要因素。相较于此前视频生成模型追求高分辨率的输出, Sora 2 仅生成 360p 画面并免费供受邀请用户使用,大幅降低了用户门槛。Cameo 功能则支持用户制作保留面部 微表情与声纹特征的数字分身,并可将分身植入自己或朋友生成的视频场景。考虑到邀请码的裂变机制(受邀 请用户也会生成 4 个新的邀请码)本身强调用户更可能将产品分享给熟悉的朋友,更进一步为 Cameo 功能提供 了基础。通过朋友共创+私域传播,Sora 2 成功打造了“AI+社交”的产品氛围,加速产品爆火节奏。 S o ra 2 的爆火标志着 AI 应用竞争进入了新阶段——单纯的技术参数比拼之下,更重要的是将技术能力无 缝封装进优秀的产品体验、并设计出能够自我驱动的病毒式传播循环,才是引爆大众市场的关键。

二、如何才能使用 Sora 2?

“好的产品做减法”。Sora 2 的使用流程看似简洁,但其背后每一步都充满了深思熟虑的产品设计,旨在 最大化地降低创作门槛、激发社交欲望并构建用户粘性。

2.1 邀请制构建社交生态,核心创作流程极致简化

邀请制构建社交生态,移动端优先强调娱乐属性。Sora APP 发布之初仅开放了美国和加拿大 iOS 端下载(截至 10 月 6 日,七麦数据显示排名的地区还包括日本、韩国和瑙鲁),网页端及安卓版则在后续逐步适配。 完成 APP 下载后,用户可通过 OpenAI 账户直接登录,但需填写邀请码才能进入产品界面,获得邀请的用户则会 得到 4 个新的邀请码。 S o ra 2 的准入模式直接体现 OpenAI 对 C 端 AI+社交的重视:1)移动端优先:Sora 2 初期仅上线移动端, 直接对标 TikTok 等短视频平台,相较过去视频生成工具用于降本增效,更强调“社交娱乐”而非“生产力工具” 的初始定位。2)生态绑定:Sora APP 与 ChatGPT 账户直接关联,不仅为 OpenAI 产品生态构建了新吸引点,更 将 ChatGPT 7 亿周活用户圈定为 Sora 的潜在客群。Sora APP 为 ChatGPT Pro 账户提供 Sora Pro 能力也展现了 其为 ChatGPT 付费订阅导流的目标。3)邀请制:邀请制不仅能够控制初期高昂的算力成本,还能够营造“一码 难求”的社交热度(格隆汇:首日邀请码最高被炒作至数十美元),激发用户渴望。此外,正如第一问提到的, 邀请码的裂变首先会通过熟人链条传播,既保证初期用户群质量,又为社区交互提供了基础。

S o ra 2 在 y 轴滑动切换作品的基础上为 Cameo 功能新增 x 轴。Sora 2 产品设计与短视频产品高度相似, 主页为类似 TikTok 的单列推荐信息流,并提供点赞、评论、转发、搜索等基础功能,用户还可以通过自然语言 描述优化推荐内容。除了常规的 Y 轴上下滑动切换不同作品外,Sora 2 创新性地引入了 X 轴左右滑动,这一设 计专为 Cameo 和 Remix 功能服务,用户可以通过左右滑动,浏览不同创作者对同一原始作品的“二创”版本, 极大地增强了内容的探索性和社区的互动性。

S o ra 2 的创作界面贯彻了“做减法”的原则。Sora2 摒弃了其他 AI 视频工具复杂的运镜、帧率等专业参 数,取而代之的是一个极致简洁的文本输入框。用户只需用自然语言描述想法,即可“一句话生成视频”,功 能上仅保留了图生视频和调用 Cameo 这两个核心选项。这种极致的简化,精准地契合了短视频受众追求简单、 有趣而非复杂的创作心理,为产品的病毒式传播扫清了障碍。

整体而言,Sora 2 的浏览和创作界面都相当简洁,其中浏览界面上下左右滑动的操作方式符合用户习惯, 核心创作流程更是去掉了复杂的功能点。上述改动与短视频受众追求简单、有趣而非复杂、细致的目标相契合, 为后续广泛传播提供了基础。

2.2 Sora 2 围绕社交链路打造重点功能

R e mix:Sora 2 构建 UGC(用户生成内容)生态和社交网络的基石。Remix 功能允许用户在浏览信息流时, 选择任意一个感兴趣的视频作为“模板”进行二次创作。用户可以保留原视频的构图、风格或主体,仅修改部 分提示词来改变剧情走向或替换关键元素,极大程度降低原创门槛。尤其当一个“Meme(迷因/梗)”诞生并病 毒式传播时,Remix 将形成该 Meme 的内容流,大幅丰富平台的内容生态,从而将 Sora 2 从生成工具转变为内 容社区,提升用户粘性。

C a meo(数字分身):结合 Remix 打造社交裂变可能性。通过@不同好友的 Cameo 将其加入 AI 生成内容,虚 拟的视频内容和真实的社交关系产生了交互,从而产生了情绪价值。具体而言,Cameo 将 AI 工具转化社交语言 和娱乐方式,强化用户在熟人圈中分享和互动的欲望,形成了“拉新-留存-促活”的完美产品闭环。

为产品定义功能,而非为模型定义产品。“模型及产品(MaaS)”、“AI 吞噬软件”等论调都是基于强大的模型能够解决各种软件功能的思路,而 Sora 2 给出了新的解法。除了 Remix 和 Cameo 两大核心功能,Sora 2 的其他优化同样反映了其服务社交链路的核心思路。1)原生音画同步大幅改善了用户体验。带声音的视频无需 二次加工即可做为完整内容直接分享,极大地缩短了从创作到传播的路径。相较于 Veo3 的音画同步,Sora 2 的 Cameo 功能可直接将他人音色嵌入视频生成,更进一步强化了社交属性。2)低画质和低可控性带来低门槛。Sora 2 的视频牺牲了高画质和专业参数控制,大幅降低了生成视频所需的算力成本,为初期的免费模式提供了可能; 极致简化的操作更是让任何用户都能在几秒钟内上手,确保产品有最广的 MAU 和裂变能力。

三、Sora 2 视频生成的效果如何?

随着 A I 视频生成技术不断发展,各类文生/图生视频产品百花齐放,且陆续开始商业化探索。截至目前, 主流 AI 视频生成产品大多可生成 5-10s,1080p 视频。商业化多采取 C 端按会员订阅赠送积分以供生成视频, B 端按 API 调用付费的模式。

为了比较 Sora 2 AI 视频生成的效果,我们采用久谦科技咨询在文生视频(武侠)、文生视频(悬疑)、 图生视频(喜剧、卡通)、图生视频(科幻)场景的测评结果,并用同样的提示词要求 Sora 2 生成对应场景的 视频进行对比。其中,每次模型只取第一次测试结果,不进行多次测试。

总结:尽管 Sora 2 牺牲了较多视频控制的相关参数,但在文生视频(武侠)、文生视频(悬疑)、图生视 频(喜剧、卡通)三大场景中均实现了第一梯队甚至领先的水平,仅在图生视频(科幻)场景测试中相对较弱。 实际上,四次生成中 Sora 2 运镜表现均相对一般,场景切换也略显突兀,因此在增加了运镜控制描述的图生视 频(科幻)场景中表现较差。

3.1 文生视频(武侠)

Prompt:一个快节奏的武侠短片片段。月光下的竹林,低角度仰拍两位古代侠客(一男一女)正在竹梢上 飞跃交锋,他们剪影般的身影掠过月亮。随后是极速推进的特写,男侠客用两指夹住袭来的剑尖,剑气震落周 围竹叶。画面充满动态模糊,树叶飞舞。 M i niMax H ai l u o 0 2:整体指令遵循较好,视频符合物理规律;两指夹住袭来的剑尖的细节改为了用掌托住, 细节方面略有不足。 G o ogle V e o 3:整体指令遵循良好,视频符合物理规律;夹住剑的指令改为了男剑客单独持剑特写;场景 切换相对突兀。 R u nway G e n -4:整体指令遵循较好,视频符合物理规律;两指夹住袭来的剑尖的细节改为了夹住自己的剑; 同样为男剑客单独特写;闪光特效相对出戏。 字节 S eedan c e 1 . 0:整体指令遵循尚可;人物略显僵硬,且无动作浮空,对物理规律的遵循不足;打斗特 写无夹剑动作,且剑身存在消失、分裂等问题。 Sora 2:整体指令遵循较好,视频符合物理规律;两指夹住袭来的剑尖的细节改为了用手撑住,细节方面 略有不足。 本轮测试中 Sora 2 视频生成水平基本与其他模型中表现最好的 MiniMax H ailuo 0 2 一致。

3.2 文生视频(悬疑)

Prompt:模仿经典悬疑片的紧凑剪辑和特写镜头。场景设定在一个雨夜的废旧图书馆内,一名浑身湿透的 情报员(男,30 岁左右,神情警惕)背靠书架剧烈喘息,突然,他猛地将一本厚实的古籍从书架中抽出。几乎 同时,一名追踪者(女,身手矫健,戴战术手套)从阴影中迅速冲出,一把将古籍按回原处,用手臂将他死死压 制在书架上,书页因撞击而散落。 快手可灵 2.1:整体指令遵循良好,视频符合物理规律;雨夜环境体现的不明显;人物关系错误,二者从敌 对关系被改为合作关系;未能生成“抽出书籍”动作,但“将书籍按回原处”、“书页散落”等剧情执行较好。 字节 S eedan c e 1 . 0:整体指令遵循一般,其中前半程相对还原,后半段人物动作衔接混乱,明显不符合物 理规律。 阿里 W a n2.2:整体指令遵循尚可,视频符合物理规律;雨夜环境搭建合理,主体完成度高;未完成“抽出 书籍”、“按回原处”等剧情。

R u nwa y G e n -4:整体指令遵循较好,视频符合物理规律,但动作表现力明显不足;“抽出书籍”、“书页 散落”场景执行较好,仅“将书籍按回原处”被改为书籍掉落。 G o ogle V eo3:整体指令遵循一般,视频符合物理规律;场景构建较好,但仅生成了一个男性角色完成“抽 出书籍”、“将书籍按回原处”、“书页散落”等剧情。 M i niMax H a iluo 0 2:整体指令遵循一般,视频符合物理规律,与 Google Veo3 类似,场景构建较好,但仅 生成了一个男性角色执行动作。 生数科技 V idu Q 1:整体指令遵循一般,人物瞬移且形态混乱,物理规则明显出错。 Sora 2:整体指令遵循较好,视频符合物理规律,但表现力略有不足;较好执行了“抽出书籍”、“将书 籍按回原处”等动作,但未能生成“书页散落”场景。 本轮测试中 Sora 2 和快手可灵 2.1、阿里 W an2.2 共同位于第一梯队水平。其中快手可灵 2.1 在指令遵循 方面稍弱,但视频质感和更强;Sora 2 和阿里 W an2.2 则在指令遵循方面较好,动作表现力稍弱。

3.3 图生视频(喜剧、卡通)

Prompt:以提供的卡通图片为起始帧,男人正低头看着手机,小心翼翼地走路,突然男人的脚精准地踩中 香蕉皮,特写镜头捕捉到他脚底打滑的瞬间。下一刻,切换到慢动作:他的身体失去平衡,以一种违反物理定 律的、极其夸张滑稽的方式在空中旋转了两圈,表情从专注瞬间变为极度惊恐,手中的手机也飞了出去,他四 脚朝天地摔倒在地,眼冒金星。 G o ogle V eo3:整体指令遵循尚可;踩香蕉皮的动作较为刻意,且踩中后莫名跳跃;成功生成人物在空中旋 转动作,但仅转了一圈,也生成了“手机飞出”的场景。 快手可灵 2.1:整体指令遵循良好;对 Prompt 中“违反物理定律的旋转”理解产生了偏差,踩中香蕉皮后 人物变形扭曲,不再符合物理规律。 爱诗科技 P i xVer s e V 5:整体指令遵循一般;踩香蕉皮和摔倒的动作均较为刻意,且未生成“手机飞出” 的场景;角色对电话大骂的生成内容也与用户意图偏离。 生数科技 V idu Q 1:整体指令遵循一般,视频符合物理规律;未执行踩香蕉皮动作,而是突然摔倒。Sora 2:整体指令遵循较好;踩香蕉皮的动作较为刻意;成功生成人物在空中旋转动作,但仅转了一圈, 且旋转过程中人物腿部有所变形;成功生成了“手机飞出”的场景。 本轮测试中 Sora 2 表现超过其他模型水平。

3.4 图生视频(科幻)

Prompt:让海报中的角色“活过来”。起始画面是静态海报,随后模拟一个缓慢的无人机视角后退拉升镜 头,揭示出更广阔的末日废墟场景。同时,海报中的主角开始缓缓转过头,看向镜头方向,眼神中充满希望。 风中,他的衣角和远处的烟雾轻轻飘动。色调保持苍凉但壮丽,具有史诗感。 M i niMax H a i l u o 0 2:整体指令遵循较好;运镜平稳,但后退拉升镜头的幅度略有不足;“衣角飘动”的场 景生成较好,但未能生成“远处的烟雾”,而是生产了地上的飞尘。 G o og l e V e o 3:整体指令遵循较好,所有元素均囊括其中,尤其“衣角和远处烟雾飘动”的场景完美生成, 质感强;美中不足的是把后退拉升镜头弄成了向前推镜头。 爱诗科技 P i xVe r s e V 5:整体指令遵循较好,所有元素均囊括其中,仅把“远处的烟雾”改为了“主角身 边的烟雾”;同样把后退拉升镜头弄成了向前推镜头。 快手可灵 2.1:整体指令遵循较好,所有元素均囊括其中,尤其末日废墟场景表现不错,但整体场景类似贴 图缩放,缺乏质感。 生数科技 V i d u Q 1:整体指令遵循良好;未生成“烟雾”元素; “无人机视角后退拉升镜头”被理解为“镜 头跟随人物向后移动”,违反物理规律。Sora 2:整体指令遵循一般,不仅未能生成“衣角和远处烟雾飘动”,镜头也只是水平移动。 本轮测试中 Sora 2 相对较弱,仅优于违反物理规律的生数科技 V idu Q 1。

四、AI 视频生成市场空间有几何?

AI 视频生成技术作为颠覆性的生产力工具,商业化潜力巨大。我们将分别从 P 端(专业创作者)、B 端(企 业级应用)和 C 端(大众消费)三个维度,对 AI 视频生成的中期(3 年)和长期(5 年)市场空间进行测算。

1)全球 P 端创作者经济市场中期 262 亿元空间,长期 888 亿元空间(按美元:人民币汇率 7:1 计算)。 P 端用户付费意愿强,是 AI 视频工具最直接的变现市场,我们沿用“创作者人数 × AI 产品渗透率 × ARPU”的公式对国内和全球市场进行测算。 海外:P 端市场空间中期 36 亿美元空间,长期 120 亿美元空间。 Ⅰ)创作者人数:据 Research Nester 数据,截至 2023 年 5 月海外内容创作者数量超过 2.08 亿,其中巴 西数量最多达 1.05 亿,美国其次为 8650 万。通过 TikTok 数据进行验证 (Thunderbit),2025 年 TikTok MAU 15.9 亿,83%的用户发过视频,2.08 亿对应 15.8%的核心内容创作者,相对合理。综上我们假定中期海外创作者 人数为 2 亿,随着数字经济发展及 AI 工具普及创作者人数长期提升至 5 亿。Ⅱ)A I 产品渗透率:2025 年 4 月 ChatGPT 5 亿周活(IT 之家),付费用户突破 2000 万(Information),对应付费渗透率 4%。综上我们假定 A I 视频工具产品中期付费渗透率为 5%,随着数字经济发展及 AI 工具长期保守提升至 20%(当前全球 90%的创意专 业人士都在使用 Adobe Photoshop)。Ⅲ)ARPU:快手可灵海外版 Standard/Pro/Premier/Ultra 会员(不考虑 优惠)每月分别 10/37/92/180 美元,按照 6:2:1:1 加权计算为 40.6 美元/月。考虑折扣下我们假定 A I 视频 工具产品中期订阅价格为 30 美元/月,长期由于模型优化和推理成本降低下降至 10 美元/月。Ⅳ)综上所述海 外 P 端市场中期 36 亿美元空间,长期 120 亿美元空间。 国内:P 端市场空间中期 10 亿元空间,长期 48 亿元空间。 Ⅰ)创作者人数:据《2025 年网络视听内容创作者白皮书》数据,截至 2024 年底,短视频创作者账号规模 也已达 16.2 亿,全国每日短视频上传量突破 1.3 亿条。国内头部短视频平台包括抖音、快手、视频号、小红书、 哔哩哔哩等,参考海外我们假定其中 15%为核心内容创作者,且人均账号为 3 个,对应 0.81 亿创作者。综上我 们假定中期国内创作者人数为 0.8 亿,随着数字经济发展及 AI 工具普及创作者人数长期提升至 2 亿。Ⅱ)A I 产 品渗透率:考虑国内付费意愿低于海外,我们假定 AI 视频工具产品中期付费渗透率为 1%,随着数字经济发展 及 AI 工具长期保守提升至 5%。Ⅲ)ARPU:快手可灵黄金/铂金/钻石/黑金会员(不考虑优惠)每月分别 58/234/586/1314 元,按照 8:1:0.5:0.5 加权计算为 138.4 元/月。考虑折扣下我们假定 AI 视频工具产品中 期订阅价格为 100 元/月,长期由于模型优化和推理成本降低下降至 40 元/月。Ⅳ)综上所述国内 P 端市场中期 9.6 亿元空间,长期 48 亿元空间。

2)全球 B 端垂直场景市场中期 501 亿元空间,长期 666 亿元空间(按美元:人民币汇率 7:1 计算)。 B 端市场 AI 视频生成应用最广的领域,核心在于对传统制作流程的成本替代,可预见的应用场景包括专业 影视 (电影/游戏 CG)、广告、短剧、培训(教育/企业)等。我们按照“传统制造成本 × AI 渗透率 × AI 成 本优化”进行测算。 关键假设:由于目前相关数据不足,假设较为主观。 Ⅰ)A I 渗透率:中期头部公司和工作室开始试点和在非核心项目中使用,长期 AI 成为行业标准流程,大部 分制作公司采纳 AI 工具链。按照专业性要求不同,我们假定中期影视/广告/短剧/培训等行业 AI 渗透率分别达 到 5%/10%/30%/30%,长期渗透率分别达到 15%/30%/60%/60%。 Ⅱ)A I 成本优化:中国日报网报道,Chinagoods AI 创新项目组工程师代表楼晗啸在社媒营销获客 AI 峰 会上指出,以往一条 TVC 需数十万成本、数月周期,如今通过 AI 生成,成本不及传统方式十分之一;新华网报 道,国际知名视效指导姚骐仅花费 330 元即制作出科幻短片《归途》,而传统制作模式可能需要百万级别预算。 尽管上述案例降本幅度较大,但考虑到中期仅预演、素材生成、特效合成等少部分场景 AI 应用空间大,长期 A I 才会逐步渗透至替代实拍、数字演员等场景。结合不同场景的专业性要求,我们假定中期影视/广告/电商视频/ 短剧/培训等行业使用 AI 工具的成本为传统方式的 70%/50%/30%/20%,长期成本降低为 30%/20%/10%/5%。

各细分领域传统制造成本: 专业影视 (电影/游戏 CG):当前市场规模约 2430 亿人民币,按 5% C A GR 估计,中期和长期市场规模分别 2810 亿元/3100 亿元。Ⅰ)全球电影市场:2024 年全球电影票房 280 亿美元(猫眼);而票房总收入达到制作 成本的 3 倍才有可能收回成本(澎湃新闻);考虑到电影发行行业毛利率约 30%,则电影制作成本约占票房的 23%,对应 65 亿美元,约 460 亿人民币。Ⅱ)全球游戏市场: 据 Newzoo 报告,2024 年全球游戏市场规模约 1877 亿美元。其中,3A 大作的开发成本中,美术与 CG 的成本占比极高,通常达到 25%-30%(据 kotaku,《漫威蜘蛛 侠 2》的预算为 3.15 亿美元,其中仅 314 分钟的过场动画成本就超过了 4000 万美元)。考虑小型独立游戏对 美术需求较低,我们假定全行业 CG 相关成本保守估计为 15%,对应 282 亿美元,约 1970 亿人民币。 视频广告: 当前市场规模约 4690 亿人民币,按 10% C AGR 估计,中期和长期市场规模分别 6240 亿元/7550 亿元。据 Business Research Insight,全球广告视频产量市场规模在 2024 年为 670.4 亿美元,对应约 4690 亿 人民币。 短剧:当前市场规模为 300 亿人民币,按 25% C A GR 估计,中期和长期市场规模分别 590 亿元/920 亿元。 据 DataEye 研究院,2024 年中国微短剧市场规模达 504 亿,预计 2025 年将超过 680 亿,2027 年将突破 1000 亿。据南方都市报访谈创作人,短剧制造成本占总成本 60%-70%,按 60%估计短剧制造市场约 300 亿元。 培训 (教育/企业视频制作): 当前市场规模为 410 亿人民币,按 5% C AGR 估计,中期和长期市场规模分别 470 亿元/520 亿元。Ⅰ)在线教育市场:据 Business Research Insight,2024 年全球在线教育市场规模约 1782 亿美元,由于缺乏数据支撑,我们保守估计视频课程内容开发费用占比约为 3%,对应市场空间 53 亿美元,合 370 亿人民币。2)企业培训市场: 据 Business Research Insight,2024 年全球企业培训市场规模约 192 亿 美元,我们同样保守估计数字化学习(e-learning)视频制作成本占比约为 3%,对应市场空间 6 亿美元,合 40 亿人民币。 综上所述,专业影视、短剧、广告、培训场景 AI 视频市场中期 501 亿元空间,长期 666 亿元空间。

3)C 端市场:流量经济的全新入口

基于 Sora APP 的当前情况,我们认为其 C 端模式极大概率不会直接收费,而是效仿 TikTok 等短视频平台 通过 AI 原生内容社区的定位构建庞大的用户流量池,最终通过广告变现。这类商业模式并不属于 AI 视频工具 的市场空间,而是提供 B 端市场新的增量(上述 B 端市场测算未考虑 AI 原生内容社区带来的广告增量)。 综合上述分析,AI 视频生成市场中期市场空间为 763 亿元,长期市场空间为 1554 亿元。

五、Sora 2 的 Token 成本有多少?

1 分钟高清视频约 1M tokens。参考 DiT 论文,256x256 的图片会被划分为 32x32 个 patch,对应一个 patch 为 8x8 的像素块。我们假设 1920x1080 分辨率的高清图像经过下采样得到 512x256 大小的图片,对应包括 2048 个 patch。1s 高清视频往往 30-60 帧,同时考虑 Sora 在训练和推理过程中进行了压缩,我们假定压缩后的 1 s 视频为 8 帧,则一分钟的视频共 480 帧,对应 983040 个 patch。 DiT 把视频切成 m*n*t 三维的 patch(仍是 RGB 像素空间)阵列后,经过空间映射会得到 latent 空间中 的一维序列,一个 patch 对应的一个 latent 元素,等价于 LLM 中的一个 token(经过字符空间映射过来的 token 空间基本单元),则估计 1 分钟的视频约 1M tokens。

预计 S ora 2 模型推理 1 分钟 1080 高清视频的总计算量为 1.8E+7 T FLOPs。根据 OpenAI 的《Scaling Laws for Neural Language Models》,训练 Transformer 模型的理论计算量为总算力需求? ≈ 6??,推理的总算力需求为? ≈ 2??。其中,N 为模型参数量大小,D 为训练数据量大小。需要注意的是,该公式成立的前提是?????? ≫ ???? /12。其中,??????为残差流维度,????为输入文本的 token 数。由于视频训练的输入 tokens 不再符合上述 前提,则实际公式引述昆仑万维 AI Infra 负责人成诚的测算应为? ≈ 90??,推理的算力需求公式为? ≈ 30??。 Diffusion 架构基于随机的 noise latent 矩阵按照多个时间步迭代生成,我们假设 Sora 在实际推理时, 需要 20 个 step 生成视频。 按照上述公式计算,假定 Sora 2/Sora 2 Pro 模型为 20B/30B,则其推理 1 分钟高清视频(1M tokens)的 计算量为 1.18E+7 TFLOPs/1.77E+7 TFLOPs。

保守估计 Sora APP 将带来每天 1400 万美元的推理成本,年化 51.2 亿美元。2025 年 10 月 7 日,OpenAI 于 2025 年开发者大会上公布了Sora 2 的API 价格,Sora 2/Sora 2 Pro 生成720p 分辨率的视频每秒分别$0.1/$0.3; Sora 2 Pro 生成 1024p 分辨率的视频每秒$0.5。考虑到 1080p 的分辨率为 360p 的 9 倍,为 720p 的 2.25 倍, 为 1024p 的 1.13 倍,则 1s 360p/720p/1024p 的 tokens 消耗量分别为 1.82K/7.28K/14.50K。同时据可灵 AI 称 已经在推理算力层面实现了毛利率的打正,我们假定视频生成模型的 API 价格即为推理成本,则 Sora 2/Sora 2 Pro 模型生成 1 秒 720p 分辨率的成本为每百万 tokens 13.73/41.20 美元,Sora 2 Pro 模型生成 1 秒 1024p 分辨率的成本为每百万 tokens 34.49 美元。 按上述假设,Sora 2 模型推理 10 秒钟 360p 视频的计算量为 2.18E+5 TFLOPs;Sora 2/Sora 2 Pro 模型推 理 10 秒钟 720p 视频的计算量为 8.74E+5 TFLOPs/1.31E+6 TFLOPs;Sora 2 Pro 模型推理 10 秒钟 1024p 视频的 计算量为 2.61E+6 TFLOPs。 按 H100 单卡算力 1979TFLOPs(FP16)计算,假设 Sora 2/Sora 2 Pro 模型的 GPU 利用率为 50%(DiT 是Encoder-Only Transformer 架构,推理时会一次性输出全部长度的 token,为 Compute Bound 场景,对 GPU 的 利用率更高)。则 Sora 2 模型推理 10 秒钟 360p 视频的需要 221 H100-秒;Sora 2/Sora 2 Pro 模型推理 10 秒 钟 720p 视频的需要 883/1325 H100-秒;Sora 2 Pro 模型推理 10 秒钟 1024p 视频的需要 2637 H100-秒。 据 OpenAI 在 2025 年开发者大会上公布的最新数据,ChatGPT 周活跃用户已达到 8 亿,随着邀请码裂变, 我们假定 ChatGPT 用户最终都会使用 Sora APP,且每周使用一次 Sora APP 生成 10 秒钟 360p 视频(实际视频 生成功能使用频率将会显著高于 Chatbot 类产品,且未考虑 Plus 和 Pro 用户生成更高质量,更长时间视频带来 的额外推理需求),则对应每天 7.01E+7 H100-小时推理算力需求,按 H100 每小时 2 美元租赁价格,合计 1400 万美元推理成本,年化 51.2 亿美元。


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至