2025年计算机行业GenAI系列(二十三):火山多模态和千问高德,硬核能力成生态格局新基石
- 来源:广发证券
- 发布时间:2026/01/04
- 浏览次数:114
- 举报
计算机行业GenAI系列(二十三):火山多模态和千问高德,硬核能力成生态格局新基石.pdf
计算机行业GenAI系列(二十三):火山多模态和千问高德,硬核能力成生态格局新基石。豆包大模型性能提升较大,产品功能多维度增强。12月18日,在FORCE原动力大会上,火山引擎发布多款产品:①豆包1.8在工具调用、复杂指令遵循及OS智能体等关键维度均实现显著增强;实现了在多模态理解与智能体执行力上与Qwen3比肩。②在音频质量、同步性及表现力等全维度评估中,Seedance1.5Pro凭借“声画一体”的原生架构展现出略优于Kling2.6与Veo3.1的水平。豆包大模型Tokens持续增长,商业化路径逐渐清晰。截至今年12月18日,豆包大模型日均Tokens使用量已突破...
一、豆包大模型 Tokens 持续增长,推理和应用驱动算 力增长
豆包大模型Tokens持续增长,日均Tokens使用量已突破50万亿。根据火山引擎官 方微信公众号,截至今年12月18日,豆包大模型日均Tokens使用量已突破50万亿, 较25年9月的30万亿日均tokens使用量大幅增长,居中国第一、全球第三,自发布以 来增长417倍。9-12月,豆包大模型Tokens使用量的月度平均增速为22%,与5-9月 的月度平均增速21%基本持平。

算力成本下降的趋势下,豆包大模型商业化路径逐渐清晰。价格方面,字节在2025 年12月发布的豆包1.8版本的Tokens调用价格与25年6月发布的豆包1.6的价格一样。 但从算力成本来看,豆包1.8在视频理解等多模态任务中实现Token Efficiency优化, 降低了算力开销。此外,豆包1.8针对多模态Agent场景定向优化,减少多轮重试与 无效推理,降低冗余算力消耗。在单位推理成本降低的趋势下,应用端算力成本消 耗的增速或低于Tokens的增速,模型侧商业化路径逐渐清晰。
根据字节Seed官网,豆包大模型采用MoE 稀疏架构+多模态融合+工程化的方式提 升训练效率,降低训练阶段算力成本,具体方法包括: (1)采用超稀疏MoE架构:在该架构下,计算和通信间的数据实现了更低细粒度的 重叠,从而将单层级训练速度最高提升1.96倍,端到端效率平均提升 1.71 倍,有效 降低MoE分布式训练的跨设备通信开销。 (2)多模态联合训练:视频理解帧数从640帧倍增至1280帧,通过Token效率优化 减少任务所需Token量,同时支持低帧率理解超长视频,降低多模态训练的算力冗余。 (3)分阶段预训练+定向微调:预训练阶段夯实多模态基础能力,微调阶段针对 Agent场景强化工具调用、复杂指令遵循能力,搭配LoRA精调降低适配成本。 从豆包大模型的进展来看,一方面,模型训练方法优化降低了训练阶段的算力消耗; 另一方面,Tokens不断增长反映了推理和应用相关算力的旺盛需求。未来,AI算力 需求增长的驱动力将更多来自模型推理和应用落地。
国产AI算力产品和基础软件产品有望受益于推理侧算力占比的提升。相较于训练任 务所需的高密度、大算力的AI硬件,推理任务对AI硬件性能要求较低,因此,在这一 场景中可替代英伟达等海外AI芯片的国产AI芯片的选择范围更广。此外,推理任务往 往涉及与不同垂直领域以及企业私有数据的交互,在这一过程中,针对企业数据进 行模型微调以及RAG(检索增强生成)相关的基础软件也是必备的软件基础设施。
二、豆包大模型性能提升较大,产品功能多维度增强
随着模型能力和商业模式的持续迭代,豆包大模型家族在多模态理解与生成能力、 Agent能力等关键方向上持续提升。2025年12月初,火山引擎分别发布了图像创作 模型Seedream 4.5和语音识别模型 2.0,进一步丰富了模型家族。2025年12月18日, 在FORCE原动力大会上,火山引擎正式发布豆包大模型1.8、豆包视频生成模型 Seedance 1.5 pro。
(一)豆包大模型 1.8(Doubao-Seed-1.8)
火山引擎最新发布的豆包大模型1.8(Doubao-Seed-1.8),反映了其在多模态智能 体方向上实现了系统化能力的提升。该模型在工具调用、复杂指令遵循及OS智能体 等关键维度均实现显著增强。根据火山引擎的官方测评数据,豆包大模型1.8在核心 能力上与Qwen3-235B-a22b-thinking模型相比呈现全面优势。在基础数学与推理能 力测试中,豆包模型分别以94.3对87.2、83.8对79.8的得分领先。在智能体相关任务 中,该模型在通用智能体与智能体编程两项评测中也保持明显优势。尽管在复杂指 令遵循维度略低于 Qwen3,但整体来看,豆包大模型1.8在基础能力与实际应用任 务执行上均表现出更强实力。

总结来看,豆包大模型 1.8(Doubao-Seed-1.8)在多模态理解与智能体执行力上 与Qwen3比肩。相比 Qwen3 系列模型,豆包 1.8 在数学推理、长视频解析及文档 图表理解等核心维度上优势显著,尤其在单次 1280 帧视频处理与智能体编程任务 中表现出卓越的稳定性与感知能力。尽管在复杂指令遵循这个特定维度上稍逊于 Qwen3,但凭借其原生的智能上下文管理与极强的多模态任务执行力,豆包 1.8 在 实际应用场景中体现出更强的综合竞争优势。
(二)视频生成模型 Seedance 1.5 pro
火山引擎发布的 Seedance 1.5 Pro 展示了其在音视频联合生成方向上对高质量 内容创作的持续加码。该模型支持文生与图生音视频,基于原生音视频联合生成架 构,实现环境音、动作音、背景音乐与人声等多元素统一生成,音画同步精度达到毫 秒级,独白及多人对白口型高精度对齐,覆盖中文、方言、英文及多种小语种,运 动、节奏和情绪表达更自然,适配影视、漫剧、电商和广告等高阶创作场景。根据火 山引擎官方微信公众号,Draft样片功能可生成低分辨率预览视频,关键要素与成片 高度一致,有望提升创作效率65%,减少约60%无效成本。
根据官方评测平台SeedVideoBench的数据,Seedance 1.5 pro在视频和音频等多 个关键维度上均展现出显著优势。Seedance 1.5 Pro 视频生成模型相比前代在 T2V语义对齐、I2V图影对齐与运动连贯性等方面上进步较大,其语义对齐指标已超 越 Veo 3.1。尤为关键的是其原声音频生成能力,在音频质量、同步性及表现力等全 维度评估中,Seedance 1.5 Pro 凭借“声画一体”的原生架构优于 Kling 2.6 与 Veo 3.1,展现出在专业音视频创作领域的突出技术优势。
(三)图像创作模型 Seedream 4.5 和语音识别模型 2.0
火山引擎发布了图像创作模型Seedream 4.5和语音识别模型 2.0,进一步丰富了模 型家族。Seedream 4.5模型在主 体 一 致 性、 指 令 遵 循 精 准 度 、空 间 逻 辑 理 解及美学表现力 等方面实现迭代,进一步提升了图像生成的整体质量与稳定性; 而豆包语音识别模型2.0推理通过深度理解上下文完成精准识别,上下文整体关键词 召回率提升20%,并且支持多模态视觉识别,不仅“听懂字”还能“看懂图”,通过 单图和多图等视觉信息输入让文字识别更精准。
(四)总结
字节豆包大模型日均Tokens调用量已突破50万亿。根据火山引擎官微数据,2024年 12月,豆包大模型日均tokens使用量为4万亿。截至2025年12月18日,豆包大模型 日均tokens使用量已突破50万亿。目前,已有超过100家企业在火山引擎上累计 Tokens使用量超过一万亿,涵盖智能终端、汽车、金融与消费等众多领域。 豆包大模型Tokens调用量的快速增长,既源于模型能力的持续迭代,也反映出其在 多场景落地中的高频使用。一方面,豆包在自然语言理解、内容生成、语音交互、视 觉识别等多模态方向持续迭代,模型性能与推理效率显著提升。另一方面,随着字 节在抖音、飞书等生态体系中的大规模部署,豆包模型被广泛嵌入到内容创作、智 能客服、广告投放、教育培训等To B与To C场景中,同样带动了调用量的高速增长。 此外,火山引擎开放平台的持续扩展,使得越来越多的开发者通过API调用大模型能 力,从云端获得高质量、低成本的Tokens,同样形成了较大的外部使用需求。

从模型迭代节奏来看,豆包大模型整体上呈现快速且稳定推进的态势,以数月级版 本更新为常态(豆包大模型1.5/1.6分别于2025年1月和2025年6月发布),并且围绕 多模态能力、推理与Agent执行、场景化落地等方向发展。其迭代不仅体现在模型内 部能力上,还通过与字节内部业务深度结合的方式放大了应用实践的反馈循环,形 成了较强的迭代动力。整体节奏相比行业大多数国产大模型处于较活跃水平。豆包 大模型不仅存在于单一聊天产品,而是嵌入字节内部抖音、飞书等业务场景,因此 模型需要不断适配不同任务与体验,从而形成更频繁的迭代需求。从模型的日均 Tokens增长等指标来看,商业化调用量大幅提升也为快速迭代积累了数据基础。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 计算机:通过AI原生,提升驾驶敏捷性和商业价值统一采购平台(英文版).pdf
- 计算机行业:2026全球量子计算产业发展展望.pdf
- 计算机行业OpenClaw:吹响AI Agent时代号角.pdf
- 计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透.pdf
- 计算机行业周报:openClaw推动AI产业进入Agent时代.pdf
- 正泰安能:向设计要效益:AI自动化设计的实践与回报.pdf
- 艺恩报告:智驾未来:AI重塑汽车消费新纪元.pdf
- 清鹏算电:AI与电力市场应用探索——清鹏能源大模型智能体实践与展望.pdf
- 启信慧眼:全球布局洞见先行:构建AI时代的供应链韧性-2026供应链风控白皮书.pdf
- 浪涌成潮,以AI叙事开启增长万象.pdf
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 华为鲲鹏产业体系研究深度报告:鲲鹏展翅,挥下千亿市场.pdf
- 2 计算机行业研究及2020年投资策略(103页).pdf
- 3 国产计算机基础软硬件行业深度报告:重构中国IT产业生态.pdf
- 4 计算机行业深度分析:国产软件大阅兵.pdf
- 5 国产操作系统产业分析报告:国魂所系,任重道远.pdf
- 6 网络安全服务行业研究报告:网络安全行业的制高点
- 7 计算机操作系统的历史演进和未来趋势.pdf
- 8 计算机行业专题报告:多模态大模型技术演进及研究框架.pdf
- 9 计算机行业2020年度投资策略报告(87页).pdf
- 10 2020年计算机行业中期策略:疫情和中美脱钩对行业意味着什么.pdf
- 1 计算机行业2025年三季报业绩综述:业绩趋势向好,关注AI+与信创主题.pdf
- 2 计算机行业从Circle和Coinbase看稳定币产业链:稳定币+RWA,迈向Finternet的关键.pdf
- 3 计算机行业“智能驾驶”系列专题报告:域控制器研究框架.pdf
- 4 计算机行业专题报告:物理AI,AI技术演进新方向,赋能产业智能化升级.pdf
- 5 计算机行业专题研究:DeepSeek重构算力基建长期价值的认知.pdf
- 6 计算机行业深度研究报告:字节跳动,深度布局AIGC,竞逐新一轮技术浪潮.pdf
- 7 计算机行业分析:国产算力迎来GB200时刻,AI交换网络是核心增量.pdf
- 8 计算机行业深度报告:脑机接口,从概念到落地,开启交互新时代.pdf
- 9 计算机行业深度研究:软件大革命深度,AI Agent投资宝典.pdf
- 10 计算机行业“AI+金融”系列专题研究:行业拐点已至,金融是AI应用落地的绝佳“试验田”.pdf
- 1 计算机行业:NV Rubin新架构&Agent存储最强方向,GPU Native数据库【星环科技】.pdf
- 2 计算机行业AI应用系列:3D打印百花齐放,国产厂商持续突破.pdf
- 3 计算机行业:从智谱华章MiniMax IPO看产业机遇,国内AI产业机遇期来临.pdf
- 4 计算机行业专题研究:千问APP正式接入阿里生态,流量模型AI应用产业格局有望重构.pdf
- 5 计算机行业:SpaceX如何值万亿美元?.pdf
- 6 计算机行业AI编程:重塑软件开发新范式,应用生态加速繁荣.pdf
- 7 计算机行业专题报告:GPU+ASIC渗透加速,液冷市场规模再添增量.pdf
- 8 计算机行业:AI编程商业化加速,关注本土产业参与方.pdf
- 9 计算机行业:SpaceX,从“变革”中崛起的“星际先行者”.pdf
- 10 计算机行业共享出行:迈向高质量发展,Robotaxi开启新篇章.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 1 2026年计算机行业OpenClaw:吹响AI Agent时代号角
- 2 2026年计算机行业智能驾驶专题之四:2026智驾展望,向上升阶与向下平权的双轨渗透
- 3 2026年计算机行业工业AI深度研究:跨越幻觉鸿沟,掘金万亿蓝海
- 4 2026年第10周计算机行业周报:openClaw推动AI产业进入Agent时代
- 5 2026年计算机行业多模态:视频生成,2026年有望实现从1到N
- 6 2026年计算机行业量子计算:技术突破与政策催化共振,商业化落地加速可期
- 7 2026年计算机行业量子系列报告(二):掘金量子计算,四大核心环节投资全景
- 8 2026年计算机行业星链:天基骨干筑网,手机直连拓界
- 9 2026年计算机行业月报:国产大模型token通胀,全球软件行业或迎重构
- 10 2026年计算机行业AI4S:当科技乘以科技看好——GenAI系列70暨AI4S入门篇
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
