2025年科技行业深度研究：多模态大模型和应用奇点将至

来源：华泰证券
发布时间：2025/07/15
浏览次数：435
举报

相关深度报告REPORTS

科技行业深度研究：多模态大模型和应用奇点将至.pdf

科技行业深度研究：多模态大模型和应用奇点将至。我们认为，多模态大模型和应用发展的奇点将至。判断依据包括：1）技术进步方面：原生多模态模型架构得到业界认可，OpenAI和Google的原生多模态模型已经在性能、延时、部署上展现出了优势。2）商业化进展方面：全球维度看，除了最头部的OpenAI和Anthropic依靠模型“智能”实现商业化，相当一部分AI应用公司的商业化产品依赖多模态能力。国内维度看，国内公司在视频生成赛道已经实现了较成熟的全球化和商业化之路。与市场不同的观点在于，1）更早认识到原生多模态架构将成为主流；2）AI商业化不能仅聚焦在二级公司，更要关注全球维度一...

和市场不同的观点

1）市场对多模态模型基础架构上有认知差，原生多模态还没成为主流叙事

大多数现有的 MLLM 采用模块化架构，即不同的模态部分为拼接的“pipeline”形式。而另一种“原生”MLLM，指不依赖预训练大语言模型或视觉编码器，直接在全部模态数据上从头开始同步训练的模型，训练时同时使用图文/语音等数据构建统一目标，无需先后分阶段。原生 MLLM 将视觉感知和多模态理解直接集成到单个 LLM 中，由于其端到端性和统一性，原生 MLLM 可以更容易地使用现有的 LLM 推理库进行部署，并且比模块化 MLLM 显示出更高的效率。在原生 MLLM 领域，全球较为领先的玩家主要是 OpenAI 和 Google，后续 Meta 在 Llama 4 模型的更新中也开始采用原生多模态的架构，但是模态支持较少。由于 OpenAI 和 Google 的原生 MLLM 旗舰模型为闭源，且 Llama 4 虽然为开源但是并没有公布技术报告或架构细节，因此并没有直接途径对其原生 MLLM 进行技术性分析。从效果上看，Gemini 和 4o 的原生多模态，展现出指令跟随好、时延短、一致性强的优势。原生 MLLM 通常需要较高的训练成本和训练 Know-How，一般只有头部的模型厂商才会采取这种架构。反观国内，已经实现原生多模态且参数规模较大的模型还未问世，虽然字节豆包等 Chatbot 也能实现各种模态的输入和输出，但其背后的本质还是各种模态模型的拼接。用户体感上可能认为国内外模型都能输入输出多模态，但是实际底层 Know-How 差别很大。这种认知差导致市场并没有重视原生多模态上国内外的技术差距，以及可能带来的新训练算力需求。

2）市场更关注国内二级公司的商业化进度，而忽略了全球维度内一级公司的商业化进展据我们估算，截至最新年度或季度，国内典型 C 端 AI 应用上市公司 AI 收入占总收入比重约 12.5%，海外典型 C 端公司为 13.1%；国内典型 B 端 AI 应用上市公司 AI 收入占总收入比重约 9.0%，海外典型 B 端公司为 9.4%。因此市场广泛判断 AI 应用，尤其是 2B 进展不及预期（AI 收入体量一般在年化 1 亿美金）。

然而，纵观全球包含一级公司在内的 AI 应用公司，OpenAI、Anthropic、Scale AI 年化收入均在 10 亿美金以上，OpenAI 甚至已经达到 100 亿美金。此外，像 AI 原生应用 Midjourney （图像生成）年化收入已经达到 6 亿美金，Cursor（AI Coding）达到 5 亿美金，6sense （AI 营销）达到 2 亿美金，manus 短短几个月也实现了近 5000 万美金年化收入，AI 应用商业化进展速度还是相当快的。海外产品可触达性低、国内收入较好的 AI 应用多数出海、 2B 市场进展较慢，导致国内市场产生了认知偏差，忽略了全球维度的 AI 应用商业化进步。

多模态是大语言模型发展的必然趋势

大型语言模型的快速发展促使研究者不断扩展其多模态能力。多模态大型语言模型是大语言模型（LLM）和大型视觉模型（LVM）融合的结果。借助 Scaling Law，LLM 已经几乎学习了公开可得的互联网级别数据。24 年 9 月 OpenAI 提出 o 系列模型后，全球模型在强化学习技术的加持下，进一步获得了思维涌现和强推理能力。但是 LLM 处理的核心信息是文本，模态较为单一。反观 LVM，对于视觉等多模态有优秀的感知能力，但通常在推理方面存在不足。结合 LLM 和 LVM 的优势，多模态大型语言模型（MLLM）得以问世。形式上， MLLM 指的是基于 LLM 且具备接收、推理和输出多模态信息能力的模型，能够使用多模态指令微调来增加其遵循人类指令的能力，从而实现基于图片编写网站、理解图像、光学字符识别（OCR）等能力。

模块化 vs 原生架构：原生 MLLM 具有更好的统一性和效率优势。大多数现有的 MLLM 采用模块化架构，即不同的模态部分为拼接的“pipeline”形式，其中视觉编码和语言解码分开处理，通常先用预训练视觉编码器（如 ViT/CLIP）提取图像特征，再借助少量插入层（如查询 Transformer、交叉注意力）将视觉特征送入 LLM。另一种结构是单体 MLLM，也即“原生”MLLM，指不依赖预训练大语言模型或视觉编码器，直接在全部模态数据上从头开始同步训练的模型，训练时同时使用图文/语音等数据构建统一目标，无需先后分阶段。原生 MLLM 将视觉感知和多模态理解直接集成到单个 LLM 中，由于其端到端性和统一性，原生 MLLM 可以更容易地使用现有的 LLM 推理库进行部署，并且比模块化 MLLM 显示出更高的效率。然而，原生 MLLM 通常需要较高的训练成本和训练 Know-How，一般只有头部的模型厂商才会采取这种架构。

非原生 MLLM：通过 Pipeline 形式连接多模态与 LLM

LLM 是 MLLM 的“大脑”，编码器、连接器、生成器是 MLLM 理解多模态的“五官”。从技术角度讲，不同 MLLM 有着相似的结构范式，只是内部的模块细节有差别。典型 MLLM 架构包括编码器、连接器和 LLM。其中，1）编码器：接收图像、音频或视频，并输出相应的模态特征。2）连接器：接收编码器提取的特征并处理，帮助 LLM 更好的理解这些特征。连接器还可以分为基于投影的连接器、基于查询的连接器和基于融合的连接器。前两种类型采用 token 级融合，将特征处理成 token，与文本 token 一起处理。最后一种类型在 LLM 内部实现特征级融合。3）LLM：用来生成文本信息。4）其他模块：如果想要生成文本以外的多模态信息，则还需要在 LLM 之后附加生成器，来生成除文本以外的相应模态。

为了提升 MLLM 最终效果，可以针对 MLLM 架构的不同部分进行相应优化。编码器优化的核心是提高分辨率。1）直接缩放法：用更高分辨率的预训练编码器来处理输入信息，例如处理更高分辨率的输入图片。或者采取两个编码器分别处理高分辨率和低分辨率图像，再通过交叉注意力将高分辨率特征注入到低分辦率分支中，例如智谱 CogAgent。 2）图像分块法：将高分辨率图像切割成块，并重复使用低分辨率编码器处理“块”。例如将高分辨率图像分割成较小的块后，同步发送高清的“分割图像”与低分辨率的“全局图像”到图像编码器，让编码器分别捕获局部和全局特征。

LLM 优化的核心在于提升推理能力。随着 Scaling Law、强化学习、高质量数据集、单一算力集群的发展，LLM 的推理能力不断提升。尤其是 DeepSeek、阿里 Qwen、Meta Llama 模型的开源，逐步拉近开源模型和闭源模型的差距。2025 年 5 月 28 日，DeepSeek 开源了 R1 升级版 R1-0528，在各项测评上进一步逼近了 OpenAI 最先进的 o3 闭源模型（参见研报：《计算机：DS-R1 更新，实现 15%以上性能提升》2025/5/30）。此外，Qwen、Llama 以及小米发布的 MIMO 模型，均有较小的参数尺寸，适合在端侧进行部署，同样能够带动端侧 MLLM 的发展。因此，更多强推理的 LLM 能够被用到 MLLM 中，使得 MLLM 的能力自然的随着 LLM 的发展“水涨船高”。

连接器是非基础模型厂商实现 MLLM 的便捷手段。25 年 3 月 Google 和 OpenAI 先后更新了 Gemini 2.0 Flash 和 GPT-4o 的原生图像生成，由于架构具有较好的端到端一致性，模型图像理解、生成、编辑能力大幅提高。但是前文已经分析过，端到端的 MLLM 训练成本 /Know-How 要求较高，不是所有厂商都能够实现。因此性能有损但是更便捷的做法包括：1）在预训练的视觉编码器和 LLM 之间引入可学习的连接器（Connector），将多模态信息投影到 LLM 能够高效理解的子空间中，从而连接视觉和语言模态。2）借助专家模型将图像翻译成语言，然后发送到 LLM 进行处理。这两种方法都能实现非端到端的模态链接，从而融合成 MLLM。架构确认好后，完整的 MLLM 一般需要经过预训练、指令微调和对齐微调三个训练阶段。预训练、指令微调和对齐微调三个阶段都需要不同类型的数据并对应不同的优化目标。预训练旨在对齐不同模态并学习多模态世界知识；指令微调教会模型更好地理解用户的指令并完成要求的任务；对齐微调用于与特定的人类偏好场景对齐。

通过校正的方法缓解 MLLM 的幻觉，能够进一步提升模型表现。多模态幻觉是指由 MLLM 生成的响应与图像内容不一致的现象。幻觉可以分为：1）存在幻觉：模型错误地判断物体的存在。2）属性幻觉：错误描述某些物体的属性，例如颜色。3）关系幻觉：物体之间关系的错误描述，例如位置。幻觉的缓解方法，可以根据使用的“时间先后”，分为预校正、过程校正和后校正。

原生 MLLM：端到端实现多模态，头部厂商的首选架构

原生 MLLM 需要更强的 Know-How 和充足的算力资源来从头训练，通常头部模型厂商会采用此架构。在原生 MLLM 领域，全球较为领先的玩家主要是 OpenAI 和 Google，后续 Meta 在 Llama 4 模型的更新中也开始采用原生多模态的架构，但是模态支持较少。由于 OpenAI 和 Google 的原生 MLLM 旗舰模型为闭源，且 Llama 4 虽然为开源但是并没有公布技术报告或架构细节，因此并没有直接途径对其原生 MLLM 进行技术性分析。从模态实现上看，输入模态基本覆盖了主要的文本、图像、视频、音频，输出模态仍然局限在文本、图像，OpenAI 的 4o 系列还支持原生输出音频。

Gemini 和 4o 的原生多模态，展现出指令跟随好、时延短、一致性强的优势。虽然没有模型技术细节，但是可以直接从 C 端用户角度去评判大模型产品的效果。1）在图像生成上， Gemini 2.0 Flash 和 4o 的原生多模态使得自然语言优化图像、文字渲染、图文交错输出等性能得到很大提高，指令跟随能力强，且渲染的文本不再像之前的模型经常乱码。2）在音频生成上，过去 GPT-4 要经历语音转文字/推理文字/文字合成语音三个阶段，而 GPT-4o 用“单个从头训练的网络同时接收文本、音频、图像并实时输出”，保留了语调、情感、环境声等细节，减少信息损失，时延也大大降低。

我们预测，国内原生多模态模型将在 25H2 逐渐发力，并在明年成为头部厂商的主流路径。虽然当前时点看，国内还没有像 GPT-4o、Google Gemini 这种原生的旗舰多模态模型，但是国内大厂已经开始尝试原生的架构并且做了相应的工作。例如，25 年 3 月阿里巴巴开源了 Qwen2.5-Omni 系列，模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。 Qwen2.5-Omni 采用新的端到端（即原生）Thinker-Talker 架构，旨在支持文本/图像/音频/ 视频的跨模态理解，同时以流式方式生成文本和自然语音响应。虽然 Qwen2.5-Omni 参数仅有 7B，无法比肩 GPT-4o、Google Gemini，但是说明国内大厂也基本走通了端到端的原生多模态架构。因此我们认为，国内原生多模态模型将在 25H2 逐渐发力，并在明年成为头部厂商的主流路径。率先突破的厂商，或还是阿里巴巴、字节跳动、腾讯等头部、算力充足的互联网大厂。

从大模型到多模态：商业化的必由之路

AI 应用公司会基于 LLM/MLLM 的能力，搭建相应的原生 AI 产品，实现商业化。从全球 AI 公司的商业化进展看，无论是基于 LLM 的文本类产品，还是基于 MLLM 的多模态产品，呈现出以下大趋势：1）海外商业化进展快于国内。2）全球维度，一级公司进展快于二级。 3）整体多模态为主的产品商业化快于文本产品。4）Chatbot 为代表的文本类产品国内外商业化分歧明显，在海外能够实现 10 亿美金以上的 ARR（如 OpenAI、Anthropic），而国内 Chatbot 还未实现很好的商业化。

海外商业化更超前，国内出海进展迅速

全球维度，年化收入超过 1 亿美金的产品绝大多数为海外+多模态+初创公司，且头部效应显著。据非凡产研统计数据，截至 25 年 5 月，全球主要的 AI 产品中，年化收入超过 1 亿美金的有 26 个，其中 3 个产品来自国内公司（美图、快手、睿琪软件，其中美图、快手为上市公司），占比 11.5%；多模态产品有 12 个，占比 46.2%。收入区间上看，年化收入超过50亿美金的仅有OpenAI（未考虑OpenAI 2B的API收入），10-50亿美金的仅有Anthropic （未考虑 Anthropic 2B 的 API 收入），这两家均为全球大模型的龙头厂商，其模型产品是全球大模型中的领先者。2-10 亿美金的公司有 Midjourney（图像生成）、Anysphere（AI Coding）、 Dialpad（客户支持）、6sense（营销）。Top 100 AI 产品的年化收入大多在 1 亿美金以下。我们认为，全球 AI 商业化上，头部效应显著，海外商业化快于国内，多模态产品是其中重要的产品形态，AIGC、Coding、客服等场景均有较成功的商业化典型。

国内维度，年化收入靠前的产品主要为多模态+上市公司，且出海比例高。据非凡产研统计数据，国内年化收入超过 1000 万美金的 AI 产品有 31 个，其中拥有最多上榜产品的公司为美图（5 个产品）。相比全球头部的 AI 产品收入，国内收入差一个数量级以上（美图秀秀/ 快手 1 亿美金年化收入 vs OpenAI 56 亿美金年化收入）。

另外我们还发现，高流量/高 MAU 的产品并不意味着商业化能力更强，流量/MAU/商业化 “三高”的公司，几乎都是海外头部公司，多模态可能是国内商业化更好的出路。具体地， Web 端看，同时出现在 Top 26 收入排行榜和 Top 30 Web 访问量排行榜的，有 ChatGPT （聊天助手）、Perplexity（AI 搜索）、Claude（聊天助手）、Hugging Face（Infra）、Eleven Labs（AI 语音）。App 端看，有 ChatGPT（聊天助手）、美图秀秀（AI 图像）。其中仅有美图是国内公司。即使像 DeepSeek、豆包这种流量 Top 的国内应用，收入层面也相对较少。我们认为，流量/MAU/商业化同时有较好实现的公司基本都是海外头部公司，背后可能是付费习惯/模型智能的差距。产品模态上，文本模态国内外差异化显著，以典型的聊天助手类应用为例，国内几乎很难实现商业化，而国外却能做到几乎最 Top 的商业化（OpenAI、 Anthropic）。因此多模态或是国内商业化更好的出路，美图、快手、睿琪软件进展较快。

二级公司：国内外 2C/2B 公司差距并不显著

聚焦国内外 AI 应用的上市公司，从 AI 化进度和收入占比角度，差距并不显著。截至最新年度或季度，1）C 端，我们测算国内上市公司中，AI 收入贡献度平均为 12.5%，而海外典型的 2C 公司多邻国，AI 收入贡献为 13.1%，差距不大。2）B 端，我们测算国内上市公司中，AI 收入贡献度平均为 9.0%，海外上市公司平均在 9.4%，较为接近。我们认为，从 2B/2C 上市公司角度看，国内外差距并不显著。只是在前文讨论的一级创业公司上，国内外由于投融资生态/用户习惯等原因，差距较为明显。

多模态产品持续迭代，可用性和商业化均向好

图像生成：从高质量到易用性，各玩家寻求差异化卖点

图像生成产品经历了从“追求更高逼真度”到“提升易用性与整合度”的路线。Midjourney 不断迭代模型版本提高图像质量和细节理解，同时通过 Discord 社区运营积累大批创意用户； OpenAI 则将 DALL·E 直接嵌入 ChatGPT 对话，让普通用户在聊天中就可生成图像。Adobe Firefly 将 AI 融入现有创意工具，用户几乎无感地在 Photoshop 等产品中使用生成填充等 AI 功能完成设计。这一系列演化体现出图像生成正从小众试验转向大众应用：模型能力提升的同时，使用门槛大幅降低，AI 生图正在成为普通内容创作的一部分。

随着玩家增多，各家产品都在寻求差异化卖点。新玩家专注解决长期痛点，例如 Ideogram 针对 AI 绘图文字难题提供了出色方案。Leonardo.ai 深耕游戏美术领域，提供从概念图到贴图甚至简单动画的一条龙服务。Krea 主打多模态实时编辑，让创作过程更直观互动。这些差异化特性帮助产品在细分市场站稳脚跟。此外，各类型生成工具之间界限日渐模糊，跨模态融合成为趋势。例如图像平台开始支持视频生成（25 年 6 月 Midjourney 发布视频生成产品 V1）；视频平台增加多语言声音输出（Synthesia、HeyGen 等添加 AI 配音翻译， Google Veo 3 支持原生音频）；大平台通过一个入口融合多模型能力，例如微软 Copilot 同时接入 OpenAI 文本、Suno 音乐等模型，Adobe 把 Firefly 植入全家桶应用。

视频生成：国内厂商多模态发力的主要赛道

Sora 指明了 DiT 的视频生成技术路线，但是发布时间推迟，给了其他厂商追赶机会。Sora 发布之前，主要的视频生成产品是海外 Runway Gen 系列和 Pika 系列，以及国内爱诗科技 Pixverse 系列。Sora 发布后，尤其是 Diffusion Transformer（DiT）技术路线的确认，各初创公司和大厂在视频生成赛道加速布局，国内厂商进展迅速。初创公司方面，大模型公司 MiniMax 和智谱在 AI 助手中嵌入了视频生成功能，且发布即可用，无需排队等待。大厂方面，字节即梦和快手可灵先后上线视频生成产品。尤其是快手可灵的商业化进展迅速，成为国内视频生成领域的标杆应用。

视频生成各平台竞相突破时长、清晰度和一致性瓶颈，各有特色。从早期仅能生成 3–4 秒片段的实验模型，到如今已有产品支持 10 秒以上甚至分钟级视频（如即梦 AI 可达 12 秒，快手可灵通过续接实现数分钟）。生成视频的分辨率和帧率也大幅提升，智谱清影已开始探索 4K 视频生成。与此同时，各模型愈发注重角色和风格的一致性：海螺 AI、Vidu、PixVerse 等先后推出“主体一致”或“角色复用”功能，保证同一人物在不同镜头和片段中形象不走样；Pika Labs 等则在真实性之外另辟蹊径，提供丰富的创意特效来拓展视频表现力。整体而言，国内视频生成模型技术差异逐步缩小，多个瓶颈得到突破，功能亮点各有侧重。商业模式上，大多数产品采用免费+订阅的 Freemium 策略。前文的 AI 产品商业化分析中，我们已经指出了国内多模态的商业化进展迅速，尤其是视频生成产品性能全球领先，其中快手可灵（Kling）的商业化已经取得了重大突破。从定价策略上看，大部分视频生成产品基础功能对公众开放试用，吸引流量和创作生态；高阶功能和算力通过会员收费或按量计费提供，持续支持研发投入。大多数平台也都开始布局企业服务和 API 接口，将生成视频能力嵌入商业场景（广告制作、影视预览、游戏内容生成等），并获得 B 端收入。我们认为，后续更长、更高质、更可控是 AI 视频生成的发展方向。未来视频生成产品或将从几秒短剪辑走向成分钟剧情片段，从抽象试验走向拟真内容，从生成内容不可控到可控、可编辑。此外，视频生成模型还需要解决长序列视频的稳定性和因果逻辑不足的问题，以及进一步降低算力成本以实现实时生成。我们认为，随着模型算法迭代和数据规模增长，视频生成的应用场景将更加广阔，包括数字人直播、游戏过场动画、教育培训影片等都将被重新定义，内容生产的门槛和成本将大幅降低。

近期典型视频生成模型更新#1：字节 Seedance 1.0

6 月 11 日火山引擎 Force 原动力大会上，字节发布了全新的视频生成模型 Seedance 1.0，实现一个模型同时支持文字和图片生成视频，原生具备多镜头叙事能力。在语义理解和指令遵循方面取得突破，可生成运动流畅、细节丰富、具备影视级美感的 1080p 高清视频。在第三方评测榜单 Artificial Analysis 上，Seedance 1.0 视频生成、图生视频两个任务的表现均位居首位（参见图表 24-25）。Seedance 1.0 可以通过即梦、豆包及火山引擎 API 接口开放使用。

Seedance 1.0 在数据构建上进行了大幅改进。数据很大程度上决定了模型的训练成果。 Seedance 1.0 在数据构建上，聚焦于视频多源采集与描述说明（Caption）获取，通过多阶段的筛选和均衡来增强模型对视频中的主体、动作、场景、风格以及 Prompt 的理解力。不仅构建了多种类型、风格、来源的大规模视频数据集，还专门训练了“精准描述模型”来生成视频描述（Caption），作为训练数据。流程包括三个主要阶段：1）多样性的数据获取：初始采集和合规性预筛选各种数据；2）多阶段数据管理：将原始数据提炼为视频剪辑；3）离线数据打包：视频和字幕转成 token 以进行模型训练。

Seedance 1.0 在模型训练架构上进行优化，可同时支持文生视频（T2V）和图生视频（I2V）等任务。1）时空层解耦：解耦空间层和时间层的扩散 Transformer 模型，空间层在单帧内部执行注意力聚合，而时间层则专注于跨帧的注意力计算，整体上提升了计算效率。2）多镜头多模态旋转位置编码：除了按业内常规的策略对视觉 token 使用 3D 旋转位置编码，团队还为文本 token 添加了额外的一维位置编码，并在拼接后的序列中，引入了 3D 多模态旋转位置编码（MM-RoPE），增强多镜头生成能力和多模态理解力得以加强。3）任务框架统一：使用二元掩码来指示哪些帧应遵循生成中的控制条件，实现了统一框架下，只需部署一个模型就可实现文本到图像、文本生视频和图像生视频等多种任务。

后训练阶段的强化学习进一步增强视频生成效果。自从 24 年 9 月 OpenAI 在 o 系列模型中开始使用强化学习 RL，这一方法几乎成了全球模型的统一迭代路线。Seedance 1.0 同样在后训练阶段使用高质量的精调数据集、多维度的奖励模型和反馈学习算法，来进一步提升运动生动性、结构稳定性、画面质量等。团队采用了为视频生成定制的 RLHF（基于人类反馈的强化学习）算法，最大化多个奖励模型（RM）奖励值，大幅提升 Seedance 1.0 在文生视频、图片生成视频两个任务中的综合效果。

算法加速+推理加速，实现 Seedance 1.0 约 40 秒生成 5 秒 1080p 视频。推理速度是用户体验重要的一环。为了提高推理速度，Seedance 1.0 采用：1）扩散模型算法加速：通过引入分段轨迹一致性、分数匹配与人类偏好引导的对抗蒸馏机制，在极低推理步数下实现了生成质量与速度的优化协同。2）底层推理加速：通过融合算子优化、异构量化稀疏策略、自适应混合并行、异步卸载与 VAE 并行分解等系统级改造，在保证质量的前提下，构建了面向长序列视频生成的高效推理路径。

近期典型视频生成模型更新#2：MiniMax Hailuo 02

Hailuo 02 实现 NCR 架构创新，3 倍参数量/4 倍数据量加持下模型表现更上一层楼。 MiniMax 自去年 8 月推出视频生成 demo 以来，截至 25 年 6 月已经帮助创作者生成了超过 3.7 亿个视频。25 年 6 月在连续 5 天的模型/产品发布中，MiniMax 更新了视频生成模型 Hailuo 02，相比前一版模型，参数规模是其 3 倍，训练数据量是其 4 倍。模型突破了 DiT 架构，提出 Noise-aware Compute Redistribution（NCR），训练和推理效率提升了 2.5 倍，使得 Hailuo 02 可以在不增加创作者使用成本的情况下，在复杂指令遵循和复杂物理表现上更强（对于体操等高度复杂的场景，MiniMax Hailuo 02 是目前全球唯一能够一致化实现的模型），同时实现了以相对实惠的价格生成原生的 1080p 视频。

基于 Hailuo 02，MiniMax 发布了 Hailuo Video Agent，将视频生成落地到智能体领域。 Hailuo Video Agent 是视频创作 Agent，通过用户输入，能够实现自动分析、构思并生成具有专业水准、富有观看价值的完整视频内容。单独的视频生成模型，需要用户自己构思创作的全过程，门槛较高。而 Hailuo Video Agent 能够通过 LLM 调用工具能力，帮助用户打造视频构思、资料收集、分镜制作、剪辑、配音等视频制作全流程，整个流程提供可视化的思维链，用户能够实时查看/编辑 Agent 创作流程，实现共创。后续更新中，Hailuo Video Agent 有望实现完全端到端的视频 Agent 能力，大大降低创作门槛。我们认为，Agent 是未来 LLM 落地最重要的应用形态之一，MiniMax 较早开始在视频生成领域落地 Agent，或能够率先占据用户心智，打开商业化空间。

其他多模态交互 AI 产品

其他多模态产品的快速崛起，扩展了 C 端用户能够借助 AI 创作的内容类型矩阵。除了之前讨论的图像、视频外，语音、音乐、3D 等各领域产品也找到了各自的切入点。ElevenLabs 主攻高品质语音合成和克隆；Suno 让普通用户能够生成带人声演唱的完整歌曲。在数字人方面，Synthesia 定位企业培训、营销的视频生成，强调高质量、严控形象；HeyGen 灵活面向自媒体和轻量商业，支持用户自定义头像、翻译原有视频内容等。多模态产品的演进方向各异，但总体趋势是围绕不同内容形式，优化出特定场景下的 AI 创作体验，丰富了 C 端市场的选择。为满足用户和企业的特定需求，个性化定制能力越来越受到重视。用户场景“千人千面”，导致过于标准化的产品越来越难以适配需求，多模态个性化能力对于做出产品差异化越来越重要。一方面是模型输出个性化，典型如用户用自己照片生成专属数字人（HeyGen、 Synthesia 等），用自己声音训练专属语音（ElevenLabs），或用自己数据微调模型风格（Stable Diffusion 社区大量微调模型）。另一方面是服务层面的定制，如企业希望模型懂自己的品牌语言和素材，Adobe 提出让 Firefly 训练企业专属风格，Synthesia 为大客户制作专用 Avatar。这种“千人千面”的趋势将 AI 工具从大众模式带向个人/企业私有化阶段，使得生成内容更符合使用者期望，也促进了数据生态的发展。

思考：国内大模型的瓶颈，以及国内商业化的难点

国内大模型瓶颈：核心依然是算力受限，从而导致技术路线创新缓慢

我们认为，制约国内大模型发展的瓶颈有四个，其中高性能算力是最核心的根源。

1）瓶颈#1：高性能算力受限，单集群大小受限

不可否认，国产算力已经有了突飞猛进的进展，25 年 5 月发布的 718B 参数稀疏 MoE（推理激活 39B）模型 Pangu Ultra 完全在 910B 平台上完成了训练，并实现 6K Ascend NPUs 上 30.0%的模型浮点运算利用率（MFU）和 1.46M 的每秒 token（TPS）。然而，目前仍然有相当一部分的国内模型是在 Nvidia 的 GPU 以及 CUDA 生态上训练的。由于宏观等因素，国内相比海外在Nvidia GPU的先进性以及单集群大小上有较大差距（高性能GPU的代差，以及节点内 scale up 和节点间 scale out 的差距），即使国内外采取相同的技术路线，在实际工程实现上依然存在较大算力局限，瓶颈凸显。

2）瓶颈#2：国内高价值用户数据或较少

我们认为，大模型产品或沿袭了互联网产品路径：先占据用户心智，再放大头部效应。头部效应能够吸引正向的用户反馈，反过来帮助产品迭代。例如，在 Google Search 里，用户遇到无关结果会先反思并修改关键词，从而持续向 Google 输送高质量关联性数据；而对于 Bing Search，在相同情境下，用户却把责任归咎于 Bing“不够好用”，从而转向更为头部的“Google Search”。大模型领域亦然，若一般模型失准，用户直指模型缺陷，而当 ChatGPT、Claude 出错，用户本能调整 prompt，继续贡献正向迭代样本。这样，头部模型汇聚全球场景数据并形成正向循环，而国内模型多依赖本土使用习惯，高价值用户数据相对稀薄，迭代速率受限。Kimi 通过投流扩张并无误，但 DeepSeek 选择先拉升模型智能，更贴近破解这一数据瓶颈的核心路径。

3）瓶颈#3：全球头部模型愈发闭源，国内资源受限大多跟随

海外头部厂商继续在模型架构上递进创新，但创新日益闭源。OpenAI o 系列向外界展示了 “强化学习”的新迭代范式，却未透露核心工程框架。国内 DeepSeek、Kimi 等在“强化学习”大方向的指导下，摸索出了高效的强化学习路径，但时间上略落后于海外。此外，学术界虽然持续输出开源论文与权重，但算力、数据、工程体系与 OpenAI、Anthropic 等模型巨头不在同一数量级，论文里的 SOTA 成绩在大规模推理场景仍需依赖头部闭源模型落地。国内团队在缺乏对等资源、工程试错成本高的情况下，大多只能沿主流路线做跟随升级，较难对闭源壁垒形成有效反制。

国内商业化难点：模型仍有差距，且用户付费习惯一般

国内商业化难点，我们认为表面在于用户付费情况一般，本质在于模型相比海外仍有差距。 1）用户付费情况：从表 16 的分析中可以看出，国内 AI 应用收入 Top 31 产品中，有 24 个产品为出海，出海占比为 77.4%。以收入排名第三的睿琪软件（Glority LLC）和旗下 App 为例，海外应用为 PictureThis，国内为形色。形色在 App 内部未找到明显的收费入口，而 PictureThis 在首次打开 App 时即显示订阅信息（从 App 精致度和更新频率上，PictureThis 优于形色）。另一家 AI 数字人公司 HeyGen 2020 年注册主体诗云科技（深圳）有限公司，同时把运营和融资中心放在洛杉矶。23 年 12 月，境外新股东 Conviction Partners 入局，接替了原本由红杉中国占据的董事席位，并实现资本结构、董事会席位与注册地址三线同步“去中国化”，专注做海外商业化。2）模型差距：在上一节“国内大模型瓶颈”已经阐述，一方面国内模型相比海外头部仍有差距，另一方面国内模型头部的 DeepSeek 是开源免费的，两因素叠加，进一步降低了国内用户的付费意愿。

国内商业化突破点：多模态应用先行，实现单点到多点扩张

多模态是国内 AI 应用商业化的突破点，互联网厂商依托自身场景和资源获得先发优势。从表 16 的分析中可以看出，国内 AI 应用收入 Top 31 产品中，有 21 个产品为多模态，多模态占比分别为 67.7%，成为了国内 AI 应用的主要商业化形态。其中商业化的典型是快手可灵，可灵于 2024 年 6 月上线，10 个月实现年化收入 1 亿美金，25 年 4-5 月两个月的月度付费金额均超过 1 亿人民币，商业化进展迅速。此外，美图的各系列产品也都获得了较好的商业化变现。对于后续国内商业化，我们认为：1）多模态依然是重要的产品形态，相关的应用均有机会实现比纯文本形态更好地商业化落地。2）天然有着多模态应用场景的互联网公司具有较大优势，如美图的图像处理、快手的短视频等场景。3）可灵单点获得成功，后续更多类似的国内多模态应用有望带来持续的商业化多点扩张。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）