2025年AI行业专题报告:视频及图像生成模型
- 来源:华安证券
- 发布时间:2025/07/18
- 浏览次数:986
- 举报
AI行业专题报告:视频及图像生成模型.pdf
AI行业专题报告:视频及图像生成模型。生成式AI模型开源闭源并行发展,模型版本持续迭代从生成式AI模型出现至今,国内外的AI视频图像模型不断迭代,整体上呈现开源与闭源生态并行的发展趋势。海外及国内AI大厂(如Google、Adobe、OpenAI、字节跳动)在闭源模型竞争上日趋激烈,不断在各自领域加速渗透大型商业化市场,例如广告、影视制作等场景;开源模型的落地更多集中在降低中小开发者门槛,在游戏、短视频等交互场景中推动技术普惠化。目前国内外主流的生成式AI模型版本主要为:Gen-4Turbo、可灵2.1、即梦AI3.0、MidjourneyV7等。整体在智能化水平高速提升的背景下,AI驱动的创...
1 AI 视频及图像生成模型未来展望
1.1 AI 视频图像模型技术发展趋势
2024 年 11 月至今,国内外 AI 视频图像模型不断迭代。按照模型源代码及内部 细节是否公开,可分为闭源模型和开源模型。目前海外头部 AI 大模型厂商已发布多 款新版本视频及图像生成模型,包括 OpenAI GPT-image-1、Runway Gen-4、 Midjourney V7、Google Veo 2、Adobe TransPixar 等,国内快手发布可灵 2.1 及可 图 2.0,字节跳动 Seaweed-7B 和 Seedream3.0、阿里通义 QVQ-72B-Preview、腾 讯混元 HunyuanVideo 和 FastHunyuan 等。 未来 AI 视频图像模型技术发展将聚焦于 3D 生成模型、多模态融合、参数性能 提升,例如 Roblox Cube 3D 模型、深势科技 Uni-3DAR、趣丸科技 Kiss3DGen、 VAST TripoSG 和 TripoSF 等聚焦 3D 生成,推动影视游戏内容生成、场景设计及 3D 建模自动化;Owen2.5-Omni-7B、Gemini Flash 2.0 等模型强调多模态融合,文本、 视频、图像联合训练,支持更灵活的跨模态生成;腾讯混元 HunyuanVideo、阿里通 义 QVQ-72B-Preview 模型参数规模迅速扩大,计算能力及复杂场景处理性能不断 提升。 开源与闭源生态并行:海外及国内 AI 巨头(如 Google、Adobe、OpenAI、字 节跳动)闭源模型竞争日趋激烈,加速渗透大型商业化市场如广告、影视制作等;开 源模型降低中小开发者门槛,在游戏、短视频等交互场景中推动技术普惠化。

3D 生成模型未来或成为重要竞争领域,推动影视、游戏内容生成、科学研究领域 3D 建模自动化。今年以来,在传统 AI 视频生成模型版本技术更迭的同时,众多 AI 技术厂商开始发布基于 3D 对象的生成模型: 1)3 月 18 日,Roblox 发布开源 3D 生成模型 Cube,主要用于为游戏开发者及 时构建 3D 对象和场景,在开源 Cube 3D 中,可以直接从文本和未来的图像输入生 成 3D 模型和环境,生成的对象与当今游戏引擎完全兼容,核心技术突破在于 3D 标 记化;2)3 月 25 日,深势科技、北京科学智能研究院及北京大学发布 3D 生成模型 Uni-3DAR,未来可应用于构建通用科学智能体,核心技术是统一微观与宏观 3D 结 构、统一生成和理解的自回归框架,后期可以引入多模态信息并结合大语言模型与 科学文献知识,为构建通用科学智能体提供理论基础;3)3 月 26 日,香港科技大 学(广州)与趣丸科技推出 3D 生成框架 Kiss3DGen,可应用于游戏开发和影视制 作中角色及场景设计、VR 和 AR 内容创作等,核心技术包括重新利用 2D 扩散模型、 3D Bundle Image、法线图增强等;4)3 月 28 日,VAST 发布开源 3D 生成模型 TripoSG 和 TripoSF,TripoSG 用于基础 3D 生成,TripoSF 专注于高分辨率三维重 建和生成任务,未来应用场景包括影视与游戏创作、3D 打印与制造业等,核心技术 是全新 3D 表示法 SparseFlex、视锥体感知训练策略及动态拓扑支持与开放生态。
3D 生成模型应用雏形初现,游戏与 3D 打印领域将成为未来焦点。1 月 21 日 腾讯混元宣布开源 3D 生成大模型 2.0 版本,支持文字、图像生成 3D 资产,几何结 构更加精细,纹理色彩更加丰富,目前 3D 生成大模型已应用于腾讯游戏业务中; VAST 与拓竹、纵维立方等 3D 打印行业领先厂商合作,引入 AI 自动建模功能,大 幅提高生成效率并降低人工建模成本,通过 AI 重构 3D 创作流程实现技术突破,应 用领域覆盖消费级市场和工业制造,在手办潮玩、课程教育、定制化设计等细分领 域应用雏形初现。
1.2 AI 视频图像模型未来应用场景展望
在游戏领域,AI 陪伴为目前 AI 模型主流应用场景。1)3 月 15 日,米哈游创始 人蔡浩宇新公司 Anuttacon 发布新款 AI 游戏《Whispers from the Star》,同时针对 美国地区玩家 iOS 平台开启封闭测试招募。游戏核心机制是通过实时对话推动剧情 发展,玩家任务是帮助主角 Stella 在外星星球生存并找到回家的路,在此过程中 Stella 对话由实时生成,根据玩家输入 Stella 反应、情绪和动作会发生变化,玩家也 可以通过视频、语音和文字多模态输入与 Stella 互动,每次选择都可能影响故事走 向和 Stella 命运,实现玩家自定义的开放剧情,更加具备沉浸式游戏体验。2)恺英 网络投资的自然选择公司推出首款 3D AI 伴侣游戏产品《EVE》,内容层面通过游戏 级别的剧情设计提供丰富的交互体验,是基于 AI 技术的虚拟恋爱陪伴产品;技术层 面通过自研 AI 对话模型 Vibe 深度理解用户输入,专为情感陪伴设计并满足用户在 情感交流中的需求,自研 AI 记忆模型 Echo 记录用户细微需求和过往互动细节,为 用户提供更个性化服务和深度互动。恺英网络作为《EVE》产品的投资方,未来将在 AI 大模型和 AI 交互应用两大板块持续进行研发投入,持续深化 AI 技术在游戏行业 应用。
“AI+影视动画”合作成果初现,AI 技术赋能传统经典 IP。 “未来影像计划·AI 动 画创作周”由上海电影和即梦 AI 于 3 月共同发起,设立三大评选赛道:1)以《大闹 天宫》为代表的中国经典角色形象;2)《宝莲灯》为代表的中国经典动画故事;3) 《鹿铃》、《山水情》为代表的中式美学风格。上海电影与即梦 AI 未来将以“科技赋能 内容,创新驱动未来”为核心,从 AI 动漫短剧共创、AI 青年创客培育、AI 内容城市 展厅三个维度逐步落地双方的战略合作。上海电影与即梦 AI 将继续深度探索“AI+影 视动画”,推进 AI 技术在影视内容生成、IP 运营、宣发模式等全链条的创新应用。
AI 图像及视频生成持续赋能广告营销领域,创意营销引领潮流。AI 视频及图像 生成模型已应用于广告营销行业,2024 年龙年春节各大厂商抓住春节契机,通过 AI 图像及视频生成赋能传统经典 IP,如生肖、春联等,广告营销创意不断更新,从 AI 生成平面海报到多媒体互动,对消费者实现精准营销甚至用户共创。1)天猫联动 20 多位明星与多个热门 IP,发起 AI 共创年画活动,用户通过 AI 互动在明星或 IP 制作 的年画添加自己的一笔,创作出带有个人创意的年画,“明星联动+个性定制”的互动 模式吸引大量粉丝参与,持续助力品牌营销;2)康师傅 AI 写春联并引入定制数字 人形象,用户可以生成带有个人形象的海报;3)可口可乐春节互动营销,引入 AI 视 频生成技术,用户不仅可以生成个人数字形象,还能选择个性化语音生成动画视频, 说出新年祝福;4)伊利短片《千年江南》,通过 AI 视频生成技术实现场景快速切换, 特效丝滑且有质感;5)二手玫瑰与京东家电合作《我要开花 AIGC 版》,使用 AI 视 频生成技术制作明星数字形象,配合独特的主题视觉以及辨识度极高的音乐。
“AI+设计”探索新质生产力,AI 建筑设计、品牌包装设计方兴未艾。去年以来, 国内建筑设计研究院已将 AI 辅助设计软件应用于建筑设计领域,包括校园新校区设 计、建筑外观设计等;2025 年 5 月,LiblibAI 发布全球首个设计类 AI 智能体(AI Agent)Lovart,创始人陈冕曾任字节跳动剪映全球商业化负责人:聚焦品牌设计, 从 LOGO、海报到品牌 VI 系统,Lovart 支持一站式生成;根据用户提供产品图和创 意方向完成广告与视频制作;支持文创与个性化内容创作。1)中南建筑设计院设计 师通过“Giant AI”软件(建筑创意具现软件)勾画,使得需要设计师数日渲染修改的 复杂建筑场景图在 4 小时内即可辅助设计人员实现设计快速成型,目前 Giant AI 辅 助设计已应用于武汉警官职业学院新校区、天门石家河遗址博物馆、陕西省政务和 公安大数据中心等省内外多个项目;鄂州花湖机场是我国首个采用 BIM 模型搭建、 深度应用数字化建设的机场,机场运用“数字孪生”理念,通过一套模型实现了项目的 全生命周期管理,实现设计的“图模一致”到建造的“物模一致”;2)Lovart 支持从创意 拆解到专业交付的全链路设计,给出具体英文提示即可设计出一款前卫、时尚的包 包;同理给出具体风格要求及建议即可设计一款宠物食品品牌,如名称为“Billy”、卷 毛贵宾犬、充满趣味的线描插画、手绘涂鸦风格并保留笔触感。
2 Runway
2.1 Gen 系列模型迭代更新,内容生成技术不断精进
2023 年 2 月,Runway 发布首个 AI 编辑模型 Gen-1,可以在原视频的基础上 编辑出想要的视频,使用扩散模型的结构和内容来引导视频合成(Video to Video), 依赖原始视频素材;2023 年 3 月,Runway 提出首个多模态视频工作流模型 Gen2,区别于 Gen-1 的关键点在于 Gen-2 使用文本驱动视频生成(Text to Video),直 接由文字生成视频,摆脱原始视频素材依赖;2024 年 6 月,Runway 发布 Gen-3 Alpha,通过大规模多模态训练基础设施,显著提升视频保真度、一致性和动态表现; 2025 年 4 月,Runway 发布 Gen-4 和 Gen-4 Turbo 模型,全新 AI 视频模型能够更 好地维护连贯的现实环境,并在解读用户提示方面表现更佳。
2.2 Gen 系列模型应用场景案例及核心技术
Runway Gen-1 模型核心在于需要依赖提供的文本或参考图像,指定任何风格 后将现有视频转化为新视频。技术端 Gen-1 提出了可控的结构和内容感知的视频扩 散模型,通过大规模无字幕视频和配对文本-图像数据上进行训练。可以将输入视频 转换为与用户提供的图像或文本提示相匹配的效果,同时灵活控制模型对视频结构 的控制力度,通过自定义的指导方法来调整推理过程,以控制生成视频与原视频的时间一致性。
Runway Gen-2 模型技术端通过结合深度学习与生成对抗网络(GAN),在原有 Gen-1 基础上增加多项功能。以下应用场景包括文本生成视频(Text to Video)、图 片生成视频(Image to Video)、文本+图片生成视频(Text + Image to Video)、 故事板(Storyboard)、渲染(Render)等。
Runway Gen-3 Alpha 模型技术端在全新基础设施上进行大规模多模态训练,保真 度、一致性和运动表现上有重大提升,同时推出多种高级控制工具并带有保护措施,包括内部视觉审核系统和 C2PA 溯源标准。以下应用场景包括精细的时间控制、逼真的人 类角色、艺术家创作、行业定制等。通过高描述性、时间密集型的训练,可实现富有想 象力的过渡和场景中元素的精确关键帧。
生成具有各种动作、手势和情感的富有表现力的人类角色,解锁新故事讲述。

科学家、工程师和艺术家组成的跨学科团队的协作努力,解释各种风格和电影术语。
科学家、工程师和艺术家组成的跨学科团队的协作努力,解释各种风格和电影术语。
Runway Gen-4 模型技术核心在于世界一致性(World Consistency)——能够 在多个场景中精准生成人物、场景和物体,并保持其视觉特征的一致性。同时引入 生成式视觉特效(GVFX)技术,能够通过 AI 驱动的生成能力,大幅缩短视觉特效 制作中的建模、渲染和后期调整过程。以下应用场景包括 Runway 使用 Gen-4 模型 自制短片《The Lonely Little Flame》、《New York is a Zoo》和《The Herd》。
Runway Gen-4 Turbo 模型技术端对模型架构和计算效率进行双重优化,采用 了更高效的推理算法或增强的硬件加速支持,在延续了前代世界一致性(World Consistency)的同时将速度优化推向新高度,大幅缩短视频生成时间。适合需要快 速迭代和创意探索的场景,例如短视频内容创作、概念验证或实时视觉效果预览。
2.3 Runway 产品价格模式
C 端用户积分订阅制促进未来持续收入增长。Runway 产品针对 C 端用户的价 格模式为积分订阅制,根据不同付费计划类型,提供相对应的订阅价格,年度订阅 价格相比月度订阅价格享有 20%折扣。不同付费计划对于生成视频的条件有所限制。 订阅后每个用户获得对应积分(Credits),使用 Runway 不同产品生成视频时会消耗 一定的积分,消耗积分数量与生成视频时长、使用模型类型、视频分辨率以及高级 功能(如去除水印、使用特定的运镜方式或运动速度控制等)有关。 B 端用户需要根据企业情况提供对应 AI 解决方案。企业订阅方案可分为自助服 务(Self-Serve)和全方位服务(Full-service)两种类型,自助服务适用于员工规模 少于 50 人的企业,全方位服务则针对 50 人以上的大型企业,需要联系企业根据定 制化需求提供服务。
3 可灵 AI
可灵是快手自主研发的视频生成大模型,主要为用户提供高质量的视频内容生成服 务。可灵 AI 可以支持用户通过多种形式进行输入生成,包括但不限于文字、图片、动作 视频等。目前可灵产品在移动端、Web 端和海外均上线,实现完善的产品矩阵。
3.1 可灵 AI B 端 C 端同步发展
在版本迭代更新上,可灵 AI 经历了初始版本,1.0 版本,1.5 版本,1.6 版本和最新 的 2.0 版本。可灵 AI 以自研的可灵和可图大模型为基础,提供视频和图像的生成与编辑 能力,并在版本迭代过程中不断在视频时长,视频质量,物理规律真实性上进行优化。
可灵 AI 在 B 端与 C 端同步发展。C 端方面,可灵 AI 为自媒体用户和部分广告主提 供创作生产力,公司测算可灵 AI 可以为客户的短视频营销素材制作成本降低 60-70%, 这带动了 C 端用户的付费增长。从用户结构上看,在可灵 2.0 发布会上,公司披露可灵 AI 全球用户规模超 2200 万。截止至 2024 年末,我国短视频创作者账号规模达 16.2 亿, 日短视频数量超 1.3 亿条,快手创作者数量达 1900 万。 B 端方面,可灵 AI 面向客户商家提供 API 接口,目前已经和小米、亚马逊、Freepik、 蓝色光标等数千家客户合作,满足在线教育,电子商务,智慧城市等领域的需求。可灵 AI 通过其 API 服务的灵活性和个性化适配客户应用场景,在行业内领先。可灵的全球开 发者数量超 1.5 万,已累计生成 1200 万图像和 4000 万个视频素材。
在 DBC、CIW 和 CIS 联合发布的 “2025 年 AI 视频生成企业 TOP20” 榜单中, 可灵 AI 成为榜首。
可灵 AI 基于快手自研的可灵大模型和可图大模型,模型上采用了类 Sora 的 DiT 结 构,并用 Transformer 取代传统的卷积网络结构,扩散模型基座为 flow 模型。以上的架 构设计为可灵 AI 在视频生成上处于领先地位打下技术基础。
DiT 架构集成了近年 Diffusion 生成模型的多种优秀技术,基于 Latent Diffusion Model(LDM)框架,采用 Vision Transformer(ViT)作为主干网络。创新点在于用 Transformer 学习和预测 noise 以及方差,具体为使用 Transformer 架构替换了传统的 Diffusion 模型中的卷积 U-Net 主干网络。
目前可灵 APP 会员分为三类,分别为:黄金会员(66 元 包月,可生成 66 个标准 视频),铂金会员(268 元包月,可生成 300 个标准视频),钻石会员(666 元包月,可 生成 800 个标准视频)。用户也可以购买资源包用来访问视频和图片生成相关 API 能力, 包括文生视频、图生视频、视频延长、对口型、视频特效、文生图和图生图。
3.2 可灵 AI 商业化模式及运营数据
参考非凡产研数据,2025 年 5 月份,可灵 AIWeb 端全球访问量达 1626 万, MAU 为 460 万,4 月份访问量为 1909 万。 2025 年 5 月,可灵 AI APP 端下载量达 79 万,4 月份为 108 万。
ConceptMaster 是快手可灵发布的多主体视频生成技术方案,用于多概念视频定制 的创新框架,可以在未测试调优的情况下,在扩散模型上生成高质量个性化视频。 什么是多主体视频生成?可以理解为在文生视频模型基础上支持输入多个主体图 像,从而在生成视频的过程中把多个主体组合在同一视频中。图生视频有一定区别,图 生视频是以输入的图像作为生成视频的首帧然后进行生成,一定程度上没有多主体视频 生成灵活。除可灵外,Vidu 和 Pika 等也上线多主体视频生成功能。 ConceptMaster 的功能有哪些? 1) 多概念定制视频:可以通过输入多个图像生成多个概念的定制视频,例如根据 一张“一个小男孩在路上骑自行车”的图像生成视频。 2) 身份解耦:学习多概念嵌入解耦,保证每个主体以独立的方式输入到扩散模型 中,保证了多主体视频质量。 3) 数据收集:建立了数据管道,可以系统收集不同概念的视频数据,为解耦提供 支持。 4) 基准测试:在概念保真、身份解耦和视频生成质量三个维度对模型进行有效性 测试,为评估多概念视频定制模型性能提供参考。
3.3 近期更新
4 月 15 日,快手推出发布可图 2.0(图像生成模型)和可灵 2.0(视频生成模型)。 可灵 2.0 在语义响应、动态质量、画面美学三个维度进行升级。首先在语义响应上,可 灵 2.0 版本具有更强的动作响应、运镜响应和时序响应;在动态质量上,可以实现复杂 动作的质量提升,运动幅度与速度更合理;在电影质感及艺术风格表现等方面也有显著 提升。 可灵 2.0 的技术亮点:1.全新设计的视频生成基础模型,打开建模和仿真能力空间; 2.全面升级训推策略,解锁更强的指令响应和运动表现。 可图 2.0 在指令遵循能力、电影美学和艺术风格的多样性进行全方位升级,内置超 过 60 种内容风格。
由于影像信息很难用文字完全描述,因此需要定义新语言,引用多模态信息描述— —MVL。可以理解为用户可以通过文字+图片等多个模态进行输入。 基于 MVL 可灵推出多模态编辑功能,支持在现有的视频基础上,通过图片或文字 的输入,实现生成视频内容元素的增删、替换,实现更加灵活的二次编辑和处理功能。 5 月 29 日,快手推出可灵 2.1 系列模型,包含标准(720p)、高品质(1080p)两 种模式,在性价比和高效赛道同步布局。高端版本可灵 2.1 大师版升级后提供更强的语 义响应。 该次更新主要在性价比方面进行了较大的提升。在标准模式(720p)下,生成 5 秒 视频需要消耗 20“灵感值”,高品质模式(1080p)下需要消耗 35“灵感值”。成本上与可 灵 1.6 系列版本相持平。生成效率上,高品质模式(1080p)在 1 分钟内就可生成 5 秒 钟的视频,同档次其他模型基本耗时 2-3 分钟。 在生成质量上,可灵 2.1 全面提升。主要在模型动态细节、动态响应、动态幅度等 方面进行优化。另外,物理模拟和人物动作幅度等更真实,更符合物理规律。
4 即梦 AI
4.1 即梦 AI 模型版本迭代、核心功能及技术
即梦 AI 是由字节剪映团队研发的一站式智能创作平台,前身为“剪映 Dreamina”, 2024 年 5 月升级并更名为“即梦 AI”。2024 年 7 月 31 日,即梦 AI 1.0.0 安卓版本上 架安卓应用市场,8 月 6 日上架苹果 App Store 应用商店,主要功能包括 AI 图片创 作、AI 视频创作、探索创意世界等;2024 年 11 月 15 日,即梦 AI S2.0 Pro 和 P2.0 Pro 全量上线,S2.0 Pro 模型突破点在于卓越的首帧一致性,P2.0 Pro 模型突破点 则是极高的提示词遵循能力;2025 年 4 月 7 日,即梦 AI 3.0 全量上线,突破点在于 中文文本生成能力全面提升和提供影视级画质;2025 年 4 月 28 日,即梦 AI 视频 3.0 模型上线,动作遵循能力、镜头遵循能力、物理模拟和情绪表达能力更强;2025 年 6 月 5 日,即梦图片 3.0 更新,支持“图生图”,用户可以上传参考图片,加入文本 提示来生成目标风格作品。

即梦 AI 底层技术包括深度学习模型、生成对抗网络(GAN)、变分自编码器 (VAE),分别在理解与生成、提升创作质量、实现创意的灵活拓展三方面实现技术 突破。底层优越的技术优势,赋能即梦 AI 视频生成、AI 绘画、智能画布等多项核心 功能。
4.2 即梦 AI 模型应用场景、生成效果及同行业产品对比
根据字节跳动发布技术报告《Seedream 3.0 Technical Report》显示,即梦 AI 模型领先的应用场景主要包括文本生成图片视频、文本渲染、超现实主义肖像等。
1)文本生成图片、视频应用场景及效果图对比
根据相同的输入文字提示,将即梦 3.0 输出效果图与即梦 2.0、FLUX-1.1 Pro、 Ideogram 3.0、Midjourney v6.1、Imagen3、GPT-4o 对比,主要观察模型对指令的 理解力与准确性、渲染图效果的感染力与创新性等。 大模型中对齐(Alignment)指将两个不同序列中的对应元素(如单词、字符或 子词)进行匹配,以便进行某些任务,例如机器翻译、文本摘要、语音识别等,通过 对齐,模型可以更准确地学习序列之间的关系,从而提高模型的泛化能力和性能。
2)本渲染场景及效果图对比
以下文本渲染效果图输入指令为:一幅引人入胜且充满活力的图像,风格 定位为时尚、插画、排版、三维渲染、绘画。展示七个色彩缤纷的醒目文字: “lunes”、 “martes”、“mircoles”、“jueves”、“viernes”、“sbado”、“doming”;这 些充满生气的杯子里冒出奇异的毛毡烟雾,它们优雅地漂浮在梦幻迷人的氛围 中,各式各样漂浮着的花朵为场景增添了深度和层次感,而柔和的淡蓝色背景 则与整体设计和谐相衬。
3)超现实主义肖像应用场景及效果图对比
即梦 3.0 能够直接生成更高分辨率的人像作品(例如 2048X2048 像素的图像), 进一步增强人像的纹理效果,提升纹理细节和清晰度。下图为即梦 3.0 生成的人像 效果图显示,生成的人像质量向专业摄影标准迈进方面取得了令人期待的进展,也 为后续应用带来更大可能性。
4.3 即梦 AI 产品价格模式
即梦 AI 产品价格模式采用积分订阅制和直接购买积分制。 积分订阅制:按照会员等级可划分为基础会员、标准会员和高级会员,单月购买 价格:基础会员及 79 元/月,标准会员 239 元/月,高级会员 649 元/月,同时还推出 “连续包月”和“连续包年”两个计划,分别在单月购买价格的基础上享有 12%和 30% 的折扣。 直接购买积分制:用户可以不选用订阅计划直接购买积分,价格梯度包括 50 元 /500 积分、75 元/750 积分、150 元/1500 积分、223 元/2250 积分、899 元/9000 积 分。非会员用户每天可以领取 60 积分,即梦 AI 在生成图片和视频时会消耗定量积 分。
5 Midjourney
5.1 Midjourney 版本迭代、优化情况及效果图比较
2022 年 2 月 Midjourney V1 模型面世,初期生成的图像相对粗糙,细节不足, 整体效果比较模糊;2022 年 4 月发布 Midjourney V2 模型,引入“放大”和“变化”两 个新功能,开始制定具体定价计划并转向付费测试模式;2022 年 7 月 Midjourney V3 模型发布全新“风格化”和“质量”参数;2022 年 11 月 Midjourney V4 模型拥有新 代码库和人工智能架构,是第一个在独特的“Midjourney AI 超级集群”上训练的模型, 也是第一个能够生成类似照片和渲染的逼真图像的模型;2023 年 3 月 Midjourney V5 模型继续提高现实感和美学效果,产生的图像更接近提示;2023 年 5 月 3 日 Midjourney V5.1 模型相较于早期版本有更显著的默认美学风格,使其在使用更短更 简单的文字提示时更易于操作;2023 年 6 月 23 日 Midjourney V5.2 模型生成的结 果具有更高质量,细节更清晰,色彩、对比度和构图更佳;2023 年 12 月 Midjourney V6 模型在图像质量上提供了卓越的增强,将照片的真实感提升到了一个新的水平, 并显著提高了对提示的理解;2025 年 4 月 Midjourney V7 模型在细节处理、交互效 率和个性化体验上实现突破。
5.2 Midjourney 核心技术及应用场景
Midjourney 使用的核心技术与之前介绍的 AI 大模型类似,为生成对抗网络 (GAN)。GAN 主要包含两个神经网络——生成器和判别器。生成器负责生成图像, 判别器评估生成器的性能,两个网络通过反复对抗的方式进行训练,最终生成一副 可以满足作者需求的作品;此外 Midjourney 还使用优化的变换器(Transformer)架 构,是一种基于自注意机制(self-attention)的深度学习模型架构,变换器没有显式 的循环或卷积结构,而是使用注意力机制来处理输入序列中的依赖关系,核心组件 包括多头注意力机制(Multi-head Attention)和前馈神经网络(Feed-forward Neural Networks)。多头注意力机制允许模型在不同的表示空间中进行多次自注意计算,以 捕捉不同层次和角度的语义关系,前馈神经网络则负责对每个位置的表示进行非线 性变换和映射。 2025 年 4 月 3 日 Midjourney V7 模型发布,真实感与创作效率实现双升级。V7 模型的核心亮点主要包括“草稿模式”(Draft Mode)加速创意迭代与效率提高、图像 质量与细节飞跃、场景理解与空间构建、精准视角与风格呈现、模型个性化 (Personalization)等。应用场景主要包括绘画创作、家居设计和装修、电商海报宣 传、Logo 和徽章设计、插画、漫画和油画等。
5.3 Midjourney 产品价格模式
Midjourney 产品采用订阅制收费。根据不同订阅会员等级可分为 Basic Plan、 Standard Plan、Pro Plan 和 Mega Plan,按月订阅进行收费价格分别为 10 美元/月、 30 美元/月、60 美元/月、120 美元/月,也可以按年订阅提前预支一年订阅费用并享 有 20%折扣。不同付费计划在 GPU 快速时间(Fast GPU Time)、GPU 松弛时间 (Relax GPU Time)、隐身模式(Stealth Mode)等方面有不同程度服务。 GPU 快速时间(Fast GPU Time)是指 Midjourney 不同订阅计划每月给用户在 快速模式(Fast Mode)下的时间,快速模式可以加快图像制作速度;GPU 松弛时 间(Relax GPU Time)仅服务 Standard、Pro 和 Mega 计划的用户,时间无限,每 月都可以创建任意数量的图像且无需使用快速时间,但生成时间更长且需要进行排 队等待,通常需要 0-10 分钟的等待时间;隐身模式(Stealth Mode)可以管理在 Midjourney 网站上能看到已发布图像的其他用户,可以选择将任意图像设为公共可 见或私有。
6 Stable Diffusion
6.1 Stable Diffusion 版本迭代与变体及核心功能
2022 年 8 月 Stable Diffusion 发布,基于潜在扩散模型(LDM/Latent Diffusion Model)和扩散模型(DM / Diffusion Model,DM 是基于 Google 的 Transformer 模 型),主要用于文本生成图像等领域。Stable Diffusion 自发布以来已进行多次版本迭 代,同时根据用户需求围绕架构版本、技术优化、应用场景、社区风格等维度,在速 度、兼容性或艺术风格等方面实现变体更新。Stable Diffusion 并未有过 1.0 版本, 最初模型是由 CompVis 开发的 Latent Diffusion,包含文本到图像(Text-to-Image) 和 Inpaint(修补)功能,可视为“Stable Diffusion”1.0,目前 Stable Diffusion 发布的 迭代或变体的版本数已超过 20。
Stable Diffusion 针对不同用户群体的核心需求,具备多层次的功能。核心功 能包括 8K 级高清图像生成、多模态提示词理解、动态构图控制、3D 与视频生成、 跨风格迁移等,主要基于 CLIP 文本编码器模型、VAE 变分自编码器模型、微调模 型(LoRA)、ControlNet 模型等核心技术实现其功能。技术门槛多层次化,可满足 电商运营、设计师/插画师、游戏开发者、AI 研究者等不同层次用户需求。

6.2 Stable Diffusion 核心技术及应用场景
Stable Diffusion 工作流程包括 CLIP 模型(CLIP Text Encoder)输入提示词或 图像,进入 Diffusion 图像优化模块,然后使用 VAE 模型图像解码器(VAE Decoder) 输出生成的图像。以文生图和图生图的生成技术为例,CLIP Text Encoder 模型是文 本信息与机器数据信息之间互相转换的“桥梁”,作为 SD 模型中的前置模块将输入的 文本信息进行编码;完成信息编码后,输入 SD 模型的“图像优化模块”对图像的优化 进行“控制”,“图像优化模块”由一个 U-Net 网络和一个 Schedule 算法组成,U-Net 网络负责预测噪声,不断优化生成过程(U-Net 迭代优化步数大概 50-100 次,优化 质量不断变好,纯噪声减少、图像语义及文本语义信息增加),Schedule 算法对每次 U-Net 预测的噪声进行优化处理;输入图像解码器(Image Decoder)输出图像。
Stable Diffusion 模型整体上是一个 End-to-End 模型,主要由 VAE(变分自编 码器,Variational Auto-Encoder),U-Net 以及 CLIP Text Encoder 三个核心组件构 成。VAE 是基于 Encoder-Decoder 架构的生成模型,主要是图像压缩和图像重建作用;U-Net 模型能够预测噪声残差,结合 Sampling method 对输入矩阵进行重构转 化成图片的 Latent Feature;CLIP Text Encoder 模型是基于对比学习的多模态模型, 包含 Text Encoder 和 Image Encoder 两个模型,分别用来提取文本特征和图像特 征。LoRA 模型是 Stable Diffusion 中常见的微调模型,原理是在 U-Net 网络中增加 一些新的特征信息,并对 U-Net 进行调整输出;ControlNet 模型是通过训练另外一 个神经网络去调整 U-Net 网络,本质是通过输入额外信息,实现对扩散模型生图的 精准控制。
6.3 Stable Diffusion 产品价格模式
Stable Diffusion B 端客户采用 API 订阅制:可访问 100 多个 AI API 和模型, 针对不同用户群体可分为 Basic、Standard、Premium 三个等级,按月支付价格分 别为 27 美元/月、47 美元/月、147 美元/月,按年支付价格分别为 270 美元/年、470 美元/年、1470 美元/年,另外按年支付可额外免费获得 2 个月会员。 C 端客户采用积分订阅制:每月支付订阅费并获得相应积分(credits),使用 Stable Diffusion 生成结果时会消耗一定积分,根据不同会员等级可分为 Standard、 Pro、Plus、Premium,按月支付价格分别为 9 美元/月、19 美元/月、49 美元/月、 99 美元/月,按年支付价格分别为 90 美元/年、190 美元/年、490 美元/年、990 美元 /年。
7 豆包
7.1 豆包大模型关键更新迭代、主要功能变化
豆包模型层聚焦多模态创新,加强基础大模型性能研究与提升,LLM 与图像视 频生成模型交替迭代,达成“视觉理解+深度思考”创新成果。2023 年 8 月字节发布 豆包前身“云雀大模型”,8 月 17 日宣布开始对外测试 AI 对话产品“豆包”;2024 年 5 月正式发布豆包大模型,包括通用模型 pro、通用模型 lite、角色扮演、语音识别等 9 个模型类别;2024 年 9 月发布豆包视频生成模型 PixelDance 及 Seaweed;2024 年 12 月发布豆包通用模型 Doubao-pro-1215;2025 年 1 月发布豆包大模型 1.5, 并全面上线火山方舟平台;2025 年 4 月发布豆包 1.5·深度思考模型,视觉理解、文 生图系列模型升级;2025 年 5 月发布豆包视频生成模型 Seedance 1.0 lite、豆包 1.5·视觉深度思考模型,并升级豆包·音乐模型。
豆包产品层更新迭代,聚焦 AI 搜索、多模态应用、AI 场景化应用、智能体生 态。在过去近两年的发展期间,豆包产品迭代具备以下特点: 1)AI 搜索为豆包最关键的基础能力之一,持续提升 AI 搜索的产品能力:整合字节 内部抖音搜索和头条搜索能力,接入 Bing 等搜索引擎支持全网搜索;拓展学术搜索 和支持深度搜索模式;2)重点发展多模态领域应用:多模态领域功能更新与拓展包 括持续的拓展语音聊天,文生图、图生图、视频生成、图片理解、音乐生成等功能, 拓展范围广,对每个应用保持从通用到精专的下钻打磨;3)深入应用场景,持续探 索通用大模型能力的 AI 场景化应用:积极推动垂直应用场景 AI 应用落地,围绕教 育(拍照答疑)、办公(数据分析、录音纪要、PPT 生成、云盘)、创作(海报生成、 分身写真)等多个垂直应用领域,打磨更贴近应用场景的 AI 产品体验;4)重视智 能体生态的搭建:豆包官方打磨智能体外,同时引入并运营第三方智能体,官方持续推出新智能体,打通豆包与扣子供应更多第三方开发者应用。
7.2 豆包大模型核心技术及应用场景
豆包大模型依托先进的深度学习架构,采用 Transformer 等核心技术构建其底 层框架。通过对海量文本、图像、语音等多模态数据的深度挖掘与学习,模型能够理 解不同数据类型背后的语义、逻辑与模式。在训练过程中,运用大规模分布式训练 技术,充分利用集群计算资源,加速模型收敛,提升训练效率。例如:在语言模型训 练时,模型对大量书籍、新闻、论文等文本数据进行学习,掌握语言的语法规则、语 义表达和知识体系;在图像模型训练中,通过对海量图像数据的特征提取与学习, 使得模型能够理解图像内容并根据文本描述生成对应图像。同时,模型运用多种优 化算法,如自适应学习率调整等,以提升模型训练效果与泛化能力。 目前豆包大模型主要包括以下九类:通用模型 pro、通用模型 lite、角色扮演模 型、语音识别模型、语音合成模型、声音复刻模型、文生图模型、Function call 模 型、向量化模型。
7.3 豆包视觉理解模型、图片及视频生成模型产品价格模式
豆包视觉理解模型收费模式是将输入信息(包括图片)转化为 token 计费,计 费公式:推理费用=输入单价×输入 token+输出单价×输出 token,图片 token 用量 = min(图片宽×图片高÷784,单图 token 限制),在线推理根据使用的不同类型模 型,按输入及输出每百万 token 收费,批量推理针对 doubao-1.5-vision-pro-32k 在 线推理价格 50%收费;视频生成模型计费公式:推理费用=按 token 付费单价×视频 token 用量,视频 token 用量≈ (宽×高×帧率 × 时长)/1024,准确的 token 用量以调用 API 后返回信息中 usage 字段为准;图片生成模型按使用张数后付费价格, Doubao-Seedream-3.0-t2i 定价 0.259 元/张,生成质量高,豆包-文生图模型-智能绘 图定价 0.2 元/张。
8 海艺 AI-SeaArt AI
8.1 SeaArt AI 版本迭代、核心技术及合作情况
海艺 AI 是成都海艺互娱科技有限公司在 2023 年 6 月发布的一款人工智能艺术 平台,借助 AI 技术赋予用户创作、分享及生成独特艺术作品的能力,综合了 AI 工 具、模型训练和工作流(ComfyUI)的社区平台。平台集合 Stable Diffusion WebUI (SD)和 ComfyUI 的案例使用分享网站,包含如何使用 SD 和 ComfyUI 进行图像 生成、图生图、工作流程高级技巧、LoRA 模型的使用和训练、模型训练、服务器在 线部署应用一体。其特点在于整合了互联网社区精选应用工具,利用 AI 技术提高生 产力并简化流程。目前,海艺 AI 自研大模型已经历 2.0 版本、2.1 版本和“海艺实验 室”版本三次迭代。 SeaArt 起初版本聚焦于 AI 生图工具,在 SD 开源后开发了一套 SD 环境的云端 管理系,将 SD 各种复杂功能封装起来形成一个易用的网站界面,特点在于简化了 模型调用和输出;2.0 版本中,SeaArt 借鉴多种开源模型以解决 SD 的泛化能力和 构图精细度问题;2024年3月,SeaArt基于节点的高级AI工作流工具上线ComfyUI, 用户可以通过可视化界面精确控制生产过程的每一步,实现更复杂、个性化的创作 效果。
多方合作共寻技术突破,海外市场先发优势形成,国服市场未来可期。SeaArt AI 积极与亚马逊云科技、阿里云、华为方舟实验室进行技术合作。为实现海外市场 的先发优势,海艺互娱与亚马逊云科技合作,采用云上便捷的生成式 AI 解决方案, 快速构建可以服务于全球海外用户的 SeaArt AI 艺术创作平台,目前采用的亚马逊 云科技产品包括 Amazon Bedrock、Amazon SES、Amazon EC2、Amazon S3 等; 阿里云方面提供的解决方案包括神行工具包 DeepGPU 和分布式缓存及 OSS 加速, 有利于提升 SeaArt AI 出图效率和推理耗时等性能;与华为旗下的方舟实验室合作 文生图模型,例如 PixArt Sigma 等,形成优势互补。华为云提供强大资金及研发技 术支持,结合 SeaArt AI 在技术应用及场景落地方面多年深耕的行业经验,有效实现 产品技术突破。

8.2 SeaArt AI 用户分层及应用场景
版本迭代及技术更新实现用户分层。在经历以上多次版本迭代后,SeaArt 主要 功能逐步覆盖轻度、中度及核心 AI 用户:轻度 AI 用户可以在 Home 浏览、查看和 下载图片模型,也可以使用平台内 AI 工具满足图片处理需求,专业用户可在 Studio 查找和绘制质量更高的图片;进阶版 SeaArt Train 允许中重度 AI 用户训练和定制 Lora,在 ComfyUI 导入和创建工作流。 落地页简洁降低上手门槛。“免费 AI 艺术生成器与创意社区”提供 AI 换脸、AI 视 频生成等最简单的 AI 工具;“广场(” Explore)是用户使用这些工具生成的作品展示, 采用瀑布流布局,用户可以选择右下方“同款”,实现一键做同款;快捷 AI(SwiftAI) 功能是一系列独立的工具,包括 AI 写真、文生图、基本消除等功能,基本涵盖了常 用 AI 图像功能,SeaArt AI 落地页呈现简单有效功能有利于轻度用户立即上手,降 低上手门槛,利于客户群体推广。
专业 ComfyUI 社区化,服务核心 AI 用户同时反向“筛选”高阶用户。ComfyUI 是一个基于节点式工作流的 Stable Diffusion UI,由 GitHub 上的匿名开发者 comfyanonymous 研发,用户可以通过可视化节点和连线,建立起整个生图流程。 ComfyUI 具备两点优势:1)控制精准,可扩展性强:用户可以在可视化界面里构建 工作流程,通过增删节点、修改参数,通过控制每一步流程、精准实现某些效果,而 且支持随时调整;2)复用性强:其他用户可以直接复制、下载工作流,一键使用, 而 SeaArt 还提供了云上运行 ComfyUI 的功能。基于以上特点,SeaArt 在服务核心 AI 用户同时反向操作,通过 ComfyUI 筛选高阶用户,ComfyUI 核心功能包括节点化 工作流、模块化设计、实时可视化、易于扩展、支持多种模型和算法。
游戏行业经验赋能 SeaArt 内容生成。SeaArt AI CEO 马飞作为西南地区手游出 海第一批人,具备丰富的出海经验,参与设计的游戏《银河帝国》,曾在 2012 年登 上美国畅销榜 Top2。丰富的游戏制作与运营经验赋能 AIGC 产品,SeaArt 游戏工具 设计在技术效果、图片质量和管线研发三个方面具备显著优势:1)善于挖掘硬件和 底层架构能力发挥技术效果;2)游戏美术创作生图质量更高,模型训练提升图片生 成图质量和用户体验;3)成图管线有研发与迭代提质增效。以上优势有利于 SeaArt 在游戏内容生成行业广泛应用。
8.3 SeaArt AI 产品价格模式
SeaArt AI 采用订阅制(SVIP 权益卡)收费及算力充值收费两种模式。订阅制 按照不同等级可分为免费版、初级版、标准版、专业版及大师版五个等级,可按照周 付价格及年付价格进行会员订阅,周付价格分别为 0 元/周、5.99 元/周、18 元/周、 68 元/周、109.99 元/周,年付价格享有 20%折扣。算力充值付费方面,充值享有的 算力无期限,可用于 AI 图像生成、AI 视频生成、AI 应用程序、模型训练、AI 聊天 等场景,包括以下充值梯度:6 元/700 算力、30 元/3800 算力、68 元/8200 算力、 148 元/17600 算力、328 元/45000 算力、648 元/93000 算力。
9 LiblibAI
9.1 LiblibAI 概况、融资情况及核心功能
内容创作新质生产力,多轮融资创造新速度。LiblibAI-哩布哩布 AI 在 2023 年 5 月成立,是一款“社区+工具”双轮驱动的图像生成与创作平台,目标是改变设计师、 画师、自媒体创作者的原有创作方式。LiblibAI 通过“开源模型生态+模块化工具流”架 构,将专业级 AI 能力降维至大众创作场景。2023 年 7 月起至今,LiblibAI 已完成四 轮融资,创下国内 AI 应用赛道融资新速度。最新一轮融资于 2025 年 2 月 24 日完 成,由渶策资本、顺为资本领投,明势创投等股东超额跟投,巨人网络担任本轮产业 投资方,募集资金达数亿元人民币,将重点投入创作者生态建设与技术研发,加速 构建 AI 时代的创意基础设施,进一步提升平台的技术实力和用户体验。
核心功能众多,构建 AI 内容创作分享及版权生态链。LiblibAI 提供在线 Stable Diffusion 图片生成功能和丰富的模型素材库,支持文生图、图生图、图像后期处理 等多种 AI 创作方式;平台汇集众多 AI 模型和创作作品,覆盖多种风格和领域;用 户可训练专属模型,参与社区交流并探索 AI 绘画,2023 年 5 月创立以来,LiblibAI 已积累众多专业 AI 图像创作者,构建了完整的 AI 内容创作、分享及版权生态链。 核心功能包括在线 Stable Diffusion WebUI 图片生成、丰富作品灵感和模型社区、个 人专属自定义 LoRA 模型训练、社区互动与分享、版权和售卖生态链。 截至 25 年 2 月末,创作者超两千万,日均创作交互保持数百万级别,超 50 万 用户自主训练的原创 AI 模型与工作流,共累计生成图片逾 5 亿张。
9.2 LiblibAI x 星流 Star-3 Alpha 大模型功能及应用场景
Star-3 Alpha 大模型是 LiblibAI 和星流联合推出的下一代自研图像生成大模型, 基于 F.1 基础算法架构进行训练,为用户提供更加精准、细腻的图像生成能力。根据 评测数据集结果显示,Star-3 Alpha 与 MidjourneyV6.1、Dalle-3、Flux.1Dev 评测比 较,在风格多样性、Prompt 理解能力、美学质量等基础能力方面表现优异,Star-3 Alpha 达到世界一流水准。 功能特性强大,应用场景广泛。星流 Star-3 Alpha 大模型功能突出,在高精度 图像生成、精准响应复杂提示词、艺术风格与色彩控制、高效生成与制作、智能自动 修复与重绘、高适应性与灵活性、细节表现力、内容多样性及多场景应用支持等方 面具备显著优势;推荐应用场景包括电商与产品展示、广告与市场推广、插画与艺 术创作、室内设计与建筑可视化、社交媒体内容创作等。目前星流 Star-3 Alpha 大 模型支持在线 WebUI 或星流 AI 工具生图使用,可输入中文提示词,例如:“产品展 示,珠宝的高分辨率照片,光影”。
9.3 全球第一款专业设计 AI Agent:Lovart
全球第一款专业设计AI Agent: Lovart。2025 年 5 月 12 日 LiblibAI 海外子 公司发布全球首款专业设计类 AI Agent:Lovart,创始人陈冕为原字节跳动剪映商业 化负责人,王浩帆作为团队资深算法工程师,是 InstantID 的核心开发者。 1) 功能层面:Lovart 图片、视频、3D 生成能力来自于多模型的融合调度,用户可 以在 Lovart 中一站式使用 GPT image-1、Flux pro、OpenAI-o3、Gemini Imagen 3、Kling AI、Tripo AI、Suno AI 等诸多顶流模型,用户无来回切换平台和工具, 下达任务给 Lovart 能够直接自动调用相关模型;其次,Lovart 内部构建一套智 能任务分解设计流程,能够将用户的高层设计需求自动拆解为结构化的任务序 列,包括风格定义、元素选择、布局设计、最终渲染,流程化的思维使得 Lovart 更加具备专业设计师的思考和工作能力,如下图所示,Lovart 通过对用户复杂 设计需求进行分析、任务拆解、资源调配、成果整合,最终整合为一个完整设计 方案; 2) 技术层面:Lovart 融合深度学习中的多模态神经网络、自然语言处理(NLP) 与强化学习的先进算法,核心创新点在于系统提示词(SystemPrompt)的深度 定制和多智能体协作机制的引入;Lovart 通过调用整合多种先进 AI 模型实现图 像、文本、视频、3D 建模、音频等多模态输出,图像生成: GPT image-1, Flux Pro, Gemini Imagen 3,文本处理:OpenAI-o3,视频制作:Kling AI,3D 建模: Tripo AI,音频合成:SunoAI; 3) 应用层面:Lovart 应用场景包括品牌全方案设计、广告与视频制作、文创与个 性化内容创作等。从 LOGO、海报到品牌 VI 系统,Lovart 支持一站式生成,例 如 Lovart 生成一款品牌为 Pupu 的包包,根据用户需求前期不断调整 LOGO 及 设计风格,最终生成时尚感、古怪感且风格为“运动风+Y2K 千禧年复古未来主 义”海报设计图;广告设计方面,用户只需提供产品及创意方向,Lovart 可生成 直接用于广告营销的产品图,例如 Lovart 生成一款宠物零食广告图,以自己宠 物狗品种、毛发、体型为基准,生成一幅具备涂鸦风格的宠物零食广告。

9.4 LiblibAI 产品价格模式
B 端客户方面采用解决方案制,并提供团队版会员订阅计划:目前 LiblibAI 已 为金山办公、万兴科技、吉比特游戏、天猫校园、清华大学等 B 端客户提供了专业 的 AI 图像场景解决方案。基础版团队会员 35 元/人/月,按年购买 319 元/人/年(限 时 5.3 折);专业版团队会员 68 元/人/月,按年购买 639 元/人/年。 C 端用户采用会员订阅制:付费计划可分为会员和训练会员,前者会员还可分 为基础版 VIP 会员和专业版 VIP 会员。非会员普通用户每天可免费获取 300 点算 力,云端存储空间内为 3GB,使用 LiblibAI 进行生图时需要消耗一定数量的算力, 会员每月会根据不同付费等获取不同数量的算力。
10 美图 AI Agent RoboNeo
美图公司举办主题为“AI 时代的影响生产力工具”第二届美图影像节,现场发 布 AI Agent RoboNeo,产品定位是图像设计 AI Agent,专注于影像与设计领域。 RoboNeo 头部设计采用 360 度环绕屏幕设定,屏幕形状结合了美图“MT”logo 元 素,造型是 AI 机器人与牛的结合体,包含了“AI 大牛”的寓意。
RoboNeo 主要功能:1)将自然语言转化为修图指令,通过与 RoboNeo 对话, 用户能够轻松完成以往需要手动操作的影像创作任务,通过对话式降低交互门槛, 用户只需提出修图需求即可实现照片精修;2)对话进行自由度更高,RoboNeo 创 作效果不会受限于本地客户端的功能或素材约束,用户拥有更高的自由度,能激发 无限的创意;3)提升生产力场景中创作者生产效率,能够根据语言指令进行效果改 进,具备出色创作能力。 RoboNeo 主要应用场景:1)商业级精修:100%还原本人,不同于传统修图需 要反复调整参数、沟通需求,RoboNeo 只需一句话即可完成智能美颜、光影优化、 背景处理,甚至根据场景推荐风格打造专业化照片;2)品牌设计:传统品牌设计通 常为高门槛任务,RoboNeo 能够分析用户需求,规划设计思路,只需描述 LOGO、 名片、包装或是品牌周边,即可生成多套方案提供选择;3)电商物料:商品视频、 动态海报制作,RoboNeo 支持 360 度运镜视频生成,分层调整细节(如背景、光影、 商品角度),还将平面海报转为动态海报,在电商营销领域提升商品吸引力,提升转 化率;4)效果预览辅助决策:可预览家装、车贴、T 恤图案设计,通过上传图片或 描述需求,RoboNeo 立即生成逼真预览图辅助决策;5)营销视频:RoboNeo 根据 商品特点自动生成带脚本、分镜、配乐的营销视频,一句话描述主题如产品介绍、促 销活动或品牌故事,即可输出成品;6)网站设计,设计+代码+部署全包办:RoboNeo 自动生成网页设计图、前端代码并完成部署,个人博客、企业官网均可上线。 RoboNeo 支持自然语言生成图像及视频,结合用户需求进行思考与分析,并形 成最契合用户需求的多套解决方案,整体设计及交互形态接近 Lovart,未来预期在 影像、设计等领域有广泛商业应用价值。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 电子行业深度:AI引爆供需缺口,光芯片迎黄金机遇.pdf
- 固收深度报告:债券“科技板”他山之石,海外科技巨头债券融资路径演变对我国非国有科技企业有何启示?(AI、半导体、新能源).pdf
- 建筑行业新材料:散热材料行业深度报告(二),AI推升VC和金刚石散热需求.pdf
- 特斯拉深度研究系列(2):欲上青天揽明月——在SpaceX上市前从与SpaceX及xAI协同的更高维度视角理解特斯拉.pdf
- 腾讯控股公司研究报告:AI时代核心受益者,超级入口与生态壁垒的再进化(腾讯控股深度之三).pdf
- 计算机行业多模态:视频生成,2026年有望实现从1到N.pdf
- 传媒行业GenAI系列报告之69暨AI应用深度之四:Seedance2.0突破,AI视频竞争格局及产业链机遇.pdf
- 2025年第四季度视频游戏报告.pdf
- AI视频技术跃迁驱动内容革命,把握产业变革新机遇.pdf
- 快手_W公司研究报告:AI视频对应千亿级市场,可灵占据核心卡位.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 人工智能AI产业链全景图.pdf
- 2 铀行业专题报告:AI时代的关键资源品,全球核电复兴,铀矿景气反转.pdf
- 3 元宇宙177页深度报告:人类的数字化生存,进入雏形探索期.pdf
- 4 智慧城市专题研究:AIoT时代的智慧城市跃迁.pdf
- 5 2024年AI医学影像行业发展现状与未来趋势蓝皮书.pdf
- 6 中国AI智慧操场行业研究报告.pdf
- 7 人工智能行业专题报告:从CHAT~GPT到生成式AI(Generative AI)-人工智能新范式,重新定义生产力.pdf
- 8 5G+AI的杀手级应用:VR+AR深度研究报告.pdf
- 9 埃森哲人工智能应用之道(92页).pdf
- 10 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 1 中国AI智慧操场行业研究报告.pdf
- 2 新能源行业深度研究报告:新能源+AI三大方向展望,加速增长期来临.pdf
- 3 金域医学研究报告:数据资产价值重估,AI技术驱动创新应用场景拓展.pdf
- 4 MIM(金属粉末注射成型)行业专题报告:MIM在机器人、AI、消费电子领域应用前景广阔:破界生长,智领未来.pdf
- 5 医疗AI专题报告:多组学篇,AI技术驱动精准诊断实现重要突破.pdf
- 6 AI的宏观悖论与社会主义全球化.pdf
- 7 洞隐科技2025中国物流与供应链领域AI应用研究报告.pdf
- 8 电力设备与新能源行业深度报告:AI动力打造固态电池发展新引擎.pdf
- 9 2025年金融服务业中国AI现状与趋势.pdf
- 10 人工智能行业分析:AI新纪元,砥砺开疆·智火燎原.pdf
- 1 讯飞医疗科技公司研究报告:AI医疗先行者,贯通式布局医疗信息化.pdf
- 2 医药生物行业医疗器械2026年度策略:把握出海陡峭曲线,卡位AI医疗商业化落地.pdf
- 3 艾瑞咨询:2025年中国企业级AI应用行业研究报告.pdf
- 4 新经济中工作的四大未来:2030年的AI与人才(英译中).pdf
- 5 2026年半导体设备行业策略报告:AI驱动新成长,自主可控大时代.pdf
- 6 青矩技术公司研究报告:全过程工程咨询服务领军者,积极布局AI推行数智化咨询新模式.pdf
- 7 AI医疗行业专题报告:AI重构医疗,从场景落地到变现讨论.pdf
- 8 专题报告:个人AI助理OpenClaw部署及其在金融投研中的应用研究——AIAgent赋能金融投研应用系列之二.pdf
- 9 2026年AI行业应用深度展望:AI应用重塑流量格局,字节阿里腾讯C端布局加快.pdf
- 10 讯飞医疗科技公司研究报告:AI医疗龙头,GBC全场景贯通&中试基地卡位明确,规模化落地有望加速.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年电子行业深度:AI引爆供需缺口,光芯片迎黄金机遇
- 2 2026年固收深度报告:债券“科技板”他山之石,海外科技巨头债券融资路径演变对我国非国有科技企业有何启示?(AI、半导体、新能源)
- 3 2026年特斯拉深度研究系列(2):欲上青天揽明月——在SpaceX上市前从与SpaceX及xAI协同的更高维度视角理解特斯拉
- 4 2026年腾讯控股公司研究报告:AI时代核心受益者,超级入口与生态壁垒的再进化(腾讯控股深度之三)
- 5 2026年特斯拉公司研究报告:AI赋能的产业颠覆者(智联汽车系列深度之47)
- 6 2026年智微智能公司研究报告:智联网整体解决方案提供商,强化AI算力服务能力
- 7 2026年家联科技公司研究报告:AI+消费级3D打印如虎添翼,双主线成长可期
- 8 2026年英诺赛科公司研究报告:全球GaN龙头,引领AI数据中心+机器人架构革新
- 9 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 10 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 1 2026年电子行业深度:AI引爆供需缺口,光芯片迎黄金机遇
- 2 2026年固收深度报告:债券“科技板”他山之石,海外科技巨头债券融资路径演变对我国非国有科技企业有何启示?(AI、半导体、新能源)
- 3 2026年特斯拉深度研究系列(2):欲上青天揽明月——在SpaceX上市前从与SpaceX及xAI协同的更高维度视角理解特斯拉
- 4 2026年腾讯控股公司研究报告:AI时代核心受益者,超级入口与生态壁垒的再进化(腾讯控股深度之三)
- 5 2026年特斯拉公司研究报告:AI赋能的产业颠覆者(智联汽车系列深度之47)
- 6 2026年智微智能公司研究报告:智联网整体解决方案提供商,强化AI算力服务能力
- 7 2026年家联科技公司研究报告:AI+消费级3D打印如虎添翼,双主线成长可期
- 8 2026年英诺赛科公司研究报告:全球GaN龙头,引领AI数据中心+机器人架构革新
- 9 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 10 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 1 2026年电子行业深度:AI引爆供需缺口,光芯片迎黄金机遇
- 2 2026年固收深度报告:债券“科技板”他山之石,海外科技巨头债券融资路径演变对我国非国有科技企业有何启示?(AI、半导体、新能源)
- 3 2026年特斯拉深度研究系列(2):欲上青天揽明月——在SpaceX上市前从与SpaceX及xAI协同的更高维度视角理解特斯拉
- 4 2026年腾讯控股公司研究报告:AI时代核心受益者,超级入口与生态壁垒的再进化(腾讯控股深度之三)
- 5 2026年特斯拉公司研究报告:AI赋能的产业颠覆者(智联汽车系列深度之47)
- 6 2026年智微智能公司研究报告:智联网整体解决方案提供商,强化AI算力服务能力
- 7 2026年家联科技公司研究报告:AI+消费级3D打印如虎添翼,双主线成长可期
- 8 2026年英诺赛科公司研究报告:全球GaN龙头,引领AI数据中心+机器人架构革新
- 9 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
- 10 2026年新消费行业年度策略:新消费三大引擎,AI+消费、情绪经济、新质零售
- 最新文档
- 最新精读
- 1 固收+基金2025年Q4季报分析:25Q4绩优固收+基金有什么特征?.pdf
- 2 食品饮料行业扩大内需战略专题研究(一):消费表现与市场定价有哪些潜在预期差?.pdf
- 3 浮息债全景:浮息债的理论定价与现实应用.pdf
- 4 2026年3_5月债券投资策略展望:核心矛盾切换+资产配置平衡延续,降久期防逆风.pdf
- 5 基金经理研究系列报告之九十二:南方基金林乐峰,宏观为锚,质量为核,始于客户需求,打造多元可复制的固收+产品线.pdf
- 6 信用债ETF研究系列一:升贴水率篇,折价幅度越大的信用债ETF更具性价比吗?.pdf
- 7 小核酸行业系列报告(一):小核酸成药之路——Listening to the Sound of Silence,The Road to RNA Therapeutics.pdf
- 8 2026年人形机器人行业投资策略报告:聚焦量产新阶段,把握供应链机遇.pdf
- 9 医药生物行业In vivo CAR疗法:并购与合作持续火热,多条在研管线陆续迎来概念验证数据读出.pdf
- 10 人形机器人行业系列报告五:灵巧手,核心终端,机器人融入物理世界的接口.pdf
- 1 2026年美国主导的科技繁荣本质是债务幻觉
- 2 2026年食品饮料行业深度研究报告:原油大宗上涨的影响及传导机制专题研究
- 3 2026年原油行业分析框架
- 4 2026年永立潮头,东方不败——基于实战检验的A股“抓主线”投资方法论
- 5 2026年电子行业深度:AI引爆供需缺口,光芯片迎黄金机遇
- 6 2026年人形机器人行业系列报告五:灵巧手,核心终端,机器人融入物理世界的接口
- 7 2026年氢能与燃料电池行业:能源安全与双碳目标交汇,氢能开启规模化元年
- 8 2026年固收深度报告:债券“科技板”他山之石,海外科技巨头债券融资路径演变对我国非国有科技企业有何启示?(AI、半导体、新能源)
- 9 2026年餐饮行业:秉承长期主义,格局边际向好
- 10 2026年从资本开支到利润修复:2026年行业景气再判断
