分工清晰指明落地方向,硬件“预埋”奠定发展基础。
模型+应用+硬件的三大板块格局,从后端到前端全栈式铺开。2023 年 2 月,字 节在大模型上部署了代号为“seed”的团队,专注于模型层。2023 年底,字节正式 组建 Flow 部门,致力于于 AI 大模型的应用研发。模型研发+应用落地基本完整了字 节从 AI 基础模型到落地应用的团队构成。目前字节已经开发的 AI 模型涵盖语言、语 音、图片、音乐、视频、3D 模型,乃至具身智能。对应落地应用端产品包括豆包、 猫箱、星绘、即创、即梦等。此外,字节也将 AI 能力用于端侧智能硬件,目前主要 有 Ola friend 智能体耳机、显眼包智能玩偶、智能学习灯等。我们认为,到目前为止 一张覆盖全领域,从后端到前端的大模型研发-产品体系已经基本搭建完成。
2024 年字节跳动居全球科技企业 AI 投入规模前列,可以从服务器购置、IDC 建 设、AI IaaS 服务规模,三个维度进行分析。 服务器购置规模可观。全球口径,据 Omdia 预测,2025 年服务器资本支出将增 长 22%,突破 2800 亿美元大关。这种强劲的增长趋势预计将持续整个 2020 年代, 到 2028 年服务器市场规模将达到 3800 亿美元,并在 2030 年接近 5000 亿美元。全 球 2024 年服务器市场达到 2290 亿美元,需求方前五排名依次为微软、亚马逊、谷 歌、Meta 和字节跳动,其中字节跳动在这一领域的开支为 80 亿美元,是国内相关企 业的第一名。
推进大规模 IDC 建设。根据云头条公众号消息,火山云(大同)科技有限公司 《火山云太行算力中心二期项目》于 2025 年 1 月 13 日获得批复,该项目总投资 45 亿元,共规划 12 kW 服务器机柜 15604 台,规划网络机柜 510 架。作为参照, 火山云太行算力中心一期项目总投资为 28 亿元。
AI IaaS 服务规模方面,以生成式 AI(GenAI)为口径,IDC 咨询的数据显示, 2024H1 中国智算服务整体市场同比增长 79.6%,市场规模达到 146.1 亿元人民币。 细分来看: 1) GenAI IaaS 市场同比增长 203.6%,市场规模达 52.0 亿元人民币; 2) Other AI IaaS 市场同比缩减 13.7%,市场规模达 37.1 亿元人民币; 3) 智算集成服务市场同比增长 168.4%,市场规模达 57.0 亿元人民币。 GenAI IaaS 市场表现最为亮眼,或意味着资本投向从非生成式 AI(用于传统渲 染、仿真、视联网推理等业务场景)向大模型为代表的生成式 AI 转移。 火山引擎基于其长期储备的算力资源,发力 GenAI IaaS 服务,2023H2 及 2024H1 分别获得了国内市场份额的第一和第二名,前三名包括阿里巴巴、火山引擎 和商汤科技。叠加快速攀升的市场总规模,火山引擎的算力储备和 IaaS 资源有能力 支撑其大模型训练、云算力输出及 B 端应用落地,并保持竞争优势。

豆包视觉理解模型发布,通用模型能力全面对标 GPT-4o。豆包·视觉理解模型 于 12 月 18 日在火山引擎 Force 原动力大会首次亮相。该模型可以通过视频聊天 的方式,看懂世界,思考分析,辅助决策。完成诸多复杂的逻辑计算任务,包括解微 积分题、分析论文图表、诊断真实代码问题等挑战性任务。识别方面,不仅了解物体 类型、文字信息,更能通过光影纹理细节作出深度识别。理解推理方面,解答数学题、 解析论文、情景提问、分析代码都可以实现。
豆包实时语音模型正式推出,真人级语音对话助力迈向 AGI。2025 年 01 月 20 日,豆包实时语音大模型正式推出,并在豆包 APP 全量开放。根据外部用户真实反 馈,该模型整体满意度较 GPT-4o 有明显优势,语音语气自然度和情绪饱满度远高 于后者。团队认为,该模型贴合中国用户实际需求,且发布即上线,有能力直接服务 亿万用户,而非停留于演示 Demo 层面。 采用端到端框架,深度融合语音与文本模态。面向语音生成和理解进行统一建模, 最终实现多模态输入和输出效果。在预训练(Pretrain)阶段,团队对各模态交织数 据进行深入训练,精准捕捉并高效压缩海量语音信息,通过 Scaling ,最大程度实现 语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与 RL 算法,进一步提供模型高情商对话能力与安全性,并在“智商”与“情商”之间寻求 平衡。
后发而先至,大模型能力比肩 GPT-4o。相比 5 月版本,豆包最强模型 Doubaopro 能力大幅提升。面向 MMLU_pro 评测集,模型综合能力提升 32%,和 GPT-4o 持平,使用价格仅为 GPT-4o 的八分之一。分项目看,Doubao-pro 指令遵循能力提 升 9%,代码能力提升 58%,GPQA 专业知识方面能力提升 54%,数学能力提升43%,推理能力提升 13%,全面对齐 GPT-4o 水平。
仅仅过去一个月,豆包大模型 1.5 再探新的能力边界。2025 年 1 月 22 日,豆 包大模型 1.5 正式发布,模型综合能力显著增强。相比上一版本,Doubao-1.5-visionpro 在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术升 级,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循方面 的能力。该模型在知识、代码、推理、中文等多个权威测评基准上获得最佳成绩,综 合得分优于 GPT-4o、Claude 3.5 Sonnet 等业界一流模型,模型效果达到全球领先 水平。
打破价格壁垒,推动大模型能力下沉。以旗舰产品 Doubao-pro-32k 为例,输入 价格为 0.0008 元/千 token,输出价格为 0.002 元/千 token,相比月之暗面 Moonshotv1-32K 的 0.024 元/千 token 更为便宜,与降价后的通义千问 qwen-plus 模型价格齐 平,但显著低于 qwen-max 模型。 相比国外竞品,豆包的价格优势则更为明显,豆包·视觉理解的输入价格为每千 tokens 0.003 元,比行业平均价格降低 85%,显著低于 Claude 的 0.021 元、GPT4o 的 0.0175 元(2024 年 12 月 18 日数据)。此外,豆包也可采取使用市场付费的 方式计价,这为数据接口使用者提供了结构性优化费用的窗口。

从 C 端看,字节通过旗下抖音、今日头条、巨量引擎等流量入口和推流方式帮 助豆包建立用户规模优势。在各家大模型的投放渠道中,基本都离不开字节的巨量引 擎,字节凭借资源池的优势可以帮助旗下大模型更好地获取流量优势。有了最大规模 的资源投入和领先的流量池,豆包大模型有望形成用户规模、知名度、模型能力的正 反馈机制加速其生态成长,并助推 B 端落地。财联社数据显示,截至 2024 年 11 月 15 日,国内十款 AI 原生应用合计投放金额达 15 亿元。其中,豆包投放超过 4 亿元, 排名第二。
投流能力对于建立 C 端认知和用户规模增长至关重要。根据第一财经杂志所引用的 AppGrowing 数据统计,豆包智能助手在 2024 年 4 月、5 月的投放金额接近 1800 万元,6 月上旬投放金额飙升至 1.24 亿元。而豆包 MAU 正是在 6 月、7 月开 始迅速起量并超过竞争对手。
国内月活跃人数(MAU)维度,豆包国内登顶并维持增长。根据 36 氪数据,2024 年 12 月豆包第一、Kimi 第二、文小言第三,豆包环比增加 18.64%,月活人数达到 7116 万,相比竞争对手优势明显。全球数据,豆包月活低于 ChatGPT 的 3.15 亿, 但仍能位居第二,环比增速则位居排名前十的最高位置。
从 B 端看,火山引擎及飞书提供了完整的生态保障。基础设施方面,火山引擎 强劲的系统承载力保证大模型应用发挥乘数效应。火山引擎提供领先的算力供给、推 理层优化策略和高水平系统调度能力,保证企业面临大模型需求涌现时可以拥有瞬时 可用、高弹性的计算和通信资源。
软件层面,丰富的插件生态使得企业更好对接外部内容。火山方舟自研联网插件、 内容插件和 RAG 知识库插件,将运营内容和技术积累共享给企业,以增强模型落地 效果。例如,联网插件提供头条、抖音同款搜索能力,可实时连接获取互联网海量优 质可信数据,大幅提升用户的意图识别检索水平;内容插件可对接更多新闻、视频和 垂类内容信息;RAG 知识库插件基于飞书文档解析技术,可自动将输入文档内容切 片、归类、嵌入,并达到百亿数据的毫秒级检索,大幅提高企业内部知识搜索的相关 性和准确性。
我们认为,C 端领域,字节有望通过在 AI 领域积极投入,助力其内容生成及分 发业务,巩固领先优势。字节跳动作为国内领先的互联网企业,目前其核心业务围绕 内容生成与分发展开,旗下主要产品包括:1)以文本、图片内容为主的今日头条; 2)以短视频及直播电商为主的抖音;3)以长视频内容为主的西瓜视频;4)视频剪 辑工具软件“剪映”;5)数字营销平台“巨量”;6)美颜相机应用“Faceu 激萌”和 “轻颜相机”。这些产品均需要进行文本、图片、视频,乃至数字人的生成和应用, 这与 AIGC 目前的功能领域高度契合。面向未来,大模型生成有望成为仅次于相机和 特效的内容生成工具,并普及至每位短视频作者,平台内嵌 AI 功能或将成为用户选 择平台的胜负手之一。
B 端领域,火山引擎有望以大模型为抓手实现企业用户的广泛突破。国内上一轮 云计算浪潮的赢家有阿里、腾讯、华为,主营 B 端云计算业务的火山引擎,有意在新 一轮大模型浪潮下,有望以大模型为抓手实现企业用户的广泛突破,在 B 端市场占 据一席之地。火山引擎在拓展 B 端用户过程中,需要解决两个问题:一是如何触达用 户,二是如何将其的 AI 能力嵌入用户信息化系统中。这个过程需要专攻企业信息化 解决方案的计算机公司来实现,所以字节需要通过合作伙伴协助来实现其 B 端业务 的广泛推广。