2025年计算机行业大模型及AI应用专题报告：从Tokens角度跟踪AI应用落地进展

来源：国海证券
发布时间：2025/09/16
浏览次数：416
举报

相关深度报告REPORTS

计算机行业大模型及AI应用专题报告：从Tokens角度跟踪AI应用落地进展.pdf

计算机行业大模型及AI应用专题报告：从Tokens角度跟踪AI应用落地进展。Tokens：模型定价的主要单位，与收入同步高增Tokens是大语言模型用来切割自然语言文本的基本单位，本质反映大语言模型计算量。在推理过程中，token是计算的基本单位，模型对每个token的处理都需要消耗计算资源，处理的token数量越多，计算量会呈平方级增长。OpenAI、Anthropic、字节跳动等基模厂商的主流商业模式包括C端订阅/付费/间接和B端行业客户/API调用。同时，tokens是模型变现中的最小单位，厂商主要围绕tokens定价。模型厂商以tokens为主要定价单位的底层逻辑是算力投入，模型调用时...

1、Tokens：模型定价的主要单位，与收入同步高增

Tokens调用量本质：反映大语言模型计算量

Tokens 是大语言模型（LLM）用来切割自然语言文本的基本单位，可以直观的理解为“字”或“词”。各大模型的切割规则不完全相同，通常1个中文词语、1个英文单词、1个数字或1个符号计为1个 token，并赋予相应的数字编号。一般情况下， token 和字数的换算比例大致为——1个英文字符≈0.4个token、1个中文字符≈0.5至1个token，可以近似地认为一个汉字就是一个 token。

Tokens调用量本质反映大语言模型计算量。大语言模型将输入文本切割为tokens，并转换为相应数字编码，经模型内部推理计算后，最终以一连串tokens的形式进行文本输出。在这个过程中，token是计算的基本单位，模型对每个token的处理都需要消耗计算资源，处理的token数量越多，计算量会呈平方级增长。因此，tokens调用量本质反映了模型推理过程的计算量。

模型厂主流商业模式：C端订阅/付费+B端行业客户/API调用

OpenAI、Anthropic、字节跳动等基模厂商的主流商业模式包括C端订阅/付费/间接和B端行业客户/API调用：1）C端：原生聊天助手、工具类原生应用（影视、图片、编程等）的订阅收入、付费功能以及与内部C端产品整合后的间接收入（如Google Chrome）；2）B端：为大客户落地AI应用、企业直接API调用。 Tokens是模型变现中的主要单位，厂商主要围绕tokens定价：无论是C端打包收费还是B端按量计价，模型厂商定价都以tokens为核心单位。

以tokens为定价单位的底层逻辑：算力投入

模型厂商以tokens为主要定价单位的底层逻辑是算力投入：模型调用时的tokens消耗量与相应算力投入存在强关联性。大模型处理tokens的计算过程需调用底层硬件（如 GPU/TPU）的算力/显存和能源、网络等，并直接反映在成本结构中。 1）底层硬件的算力/显存：对应GPU/TPU 集群的采购/运维折旧或租用成本。以租用为例，单张GPU 处理tokens计算时占用显存，相应拉长任务时间。租金成本可近似量化为FLOPs（即单次推理浮点计算量）×1/(GPU利用率)×1/(云、芯片租用单价/小时)。 2）能源、网络：电力消耗随计算量（即tokens处理量）增长，网络传输成本亦与输入输出 tokens

Tokens调用量：与收入同步高增

模型厂商营收正与其tokens调用量呈现显著同步的高增趋势，特别是对于OpenAI、Anthropic。其商业模式为典型的C端订阅/付费和B端行业客户/API调用，收入与tokens调用量关系紧密。2024年6月至2025年6月，OpenAI大模型基础设施——微软Azure云的日均tokens调用量从0.55万亿上涨至4.40万亿，与此同时，OpenAI年化营收（ARR）从2024年12月的55亿美元增长至2025年6月的突破100亿美元，并在2025年8月达到120亿-130亿美元。

2、Tokens调用量应用端拆解：B+C双端

C端Tokens调用量拆解总结——看好大流量池产品内部附加AI功能

驱动一：大流量池C端产品内部附加AI功能。以谷歌搜索为例：2024年5月，谷歌搜索上线AI Overview功能，至2025 年二季度，AI Overview功能月活已超20亿。分别假设单用户AI Overview使用次数（被动）/日、单次tokens消耗量为1至3次（据我们估算Chrome浏览器单用户日均搜索次数约为4.67次）、800tokens至 1600tokens，可以得出AI Overview功能单日tokens消耗量在1.6至9.6万亿区间内，在2025年7月Google日均tokens调用量中的占比为4.9%至 29.4%。抖音、剪映、今日头条等同样为大流量池C端产品，月活量级已达到 10亿（2025年3月）、7亿（2025年7月）、2.6亿（2024年下半年月均）。类比百度之于搜索、美图秀秀之于图像，我们看好大流量C端应用的 AI改造长期逻辑。据非凡产研，2025 年 7 月百度AI搜索访问量居国内智慧搜索品类第一、美图秀秀的国内访问量/存量月活、新增下载量依旧居图像品类第一，且月度收入仍在环比提升。

C端Tokens调用量拆解总结——聊天助手是OpenAI重要tokens调用量驱动因素

驱动二：聊天助手——OpenAI重要Tokens调用量驱动因素。即模型厂AI原生聊天助手。存量方面：2025年7月ChatGPT、Gemini、豆包、Grok、Claude在APP端的月活分别为5.77亿、2.79亿、1.71亿、0.21亿、708万；网页端月活分别为4.38亿、1.16亿、942万、0.28亿、0.16亿。增量方面:GeminiAPP和豆包APP月活明显增长，7月月活用户数为1月的15.5倍、1.9倍。ChatGPT聊天助手保有较大C端用户规模，2025年7月APP+网页端合计月活达10.15亿，是OpenAI重要Tokens调用量驱动因素。对比OpenAI、Anthropic收入结构，2025年7月，OpenAI120亿美元ARR收入中，ChatGPT聊天助手（APP/网页端）带来的C端消费者订阅收入达55亿美元，占比45.8%；而Anthropic的消费者订阅ARR收入（来自ClaudeAPP/网页端）为7亿美元，占比14%。 2025年6月，微软日均tokens调用量为4.46万亿，对应C端9.61亿月活及B端行业企业客户和直接API调用。结合Gemini、豆包、Grok、Claude聊天助手月活量级，我们推算由AI原生聊天助手带来的日均tokens调用量不会超过1万亿tokens，在Google及字节日均tokens调用量中份额均较小，为3%和6%。

C端Tokens调用量拆解总结——图像、视频赛道中高频多模态需求带来更多tokens消耗

驱动三：新兴应用——图像、视频赛道拥有较大用户基础，高频多模态需求带来更多tokens消耗除产品内置AI功能、聊天助手外，图像、视频、陪伴、办公、教育赛道内均出现了有较大潜力的C端新兴AI应用。字节跳动进行多维度布局，推出醒图/星绘（图像）、即梦（视频）、猫箱（陪伴）、豆包爱学（教育）等AI应用。其中醒图、即梦7月月活达到4924万（当月收入59万美元）、1393万（当月收入58万美元），已成为图像、视频赛道内拥有较大用户量级的产品；猫箱7月月活794万，当月收入达112万美元（qoq+71%），商业转化效率较高。图像、视频类产品对多模态输入输出有高频需求，相应带来更多tokens消耗；例如Canva接入gpt-image-1、Leonardo.AI，用于文生图、文生视频、图像补全等除文本模态外的编辑、生成场景。根据Gemini、Kimi等大模型的折算口径，单张图片的输出（输入）tokens消耗量在1024（kimi）—1290（Gemini）之间;我们假设5–15秒视频短片按4fps计算，输出（输入）tokens消耗量在6000—18000之间，文生图、图像补全、文生视频的单次tokens消耗量。

3、展望：技术迭代解锁应用需求，算力投入加大模型厂预期乐观

大模型技术迭代：推理增强+多模态+Agent化+长上下文

大模型不再只靠“更大参数”取胜，而是向推理增强、多模态、Agent化、长上下文转型。以GPT-5和Grok4为例： GPT-5把“更强的推理能力（通过引入test-timecompute）+多模态+更长上下文+更严格的安全控制等”置于产品默认层面； Grok4核心升级则是把“原生工具调用+多代理协同推理+超长上下文等”做成一个可商用产品。推理增强、多模态、Agent化、长上下文转型的技术迭代趋势也将增强AI在更复杂、更具备“生产力”的关键场景下的实用性、准确性，并且使得AI应用加速落地。

大模型技术迭代：存量场景tokens增长空间

大模型技术迭代将带来存量AI应用场景的tokens调用量增长。例如“推理增强”将模型的一次性回答拆解为多步并进行多次调用；“多模态”需增加对图片、语音、视频等的编码解码；“Agent化”会在模型生成的过程中引入工具链；“长上下文”使得大型文档/项目可被全量处理而无需截断。

算力成本优化、多价格策略压降使用成本，提高企业/个人调用ROI

模型厂优化算力成本压低tokens定价。2024-2025两年，为优化大模型算力成本（tokens成本=FLOPs即单次推理浮点计算量×1/(GPU利用率)×1/(云、芯片租用单价/小时)），模型厂商进行了压缩大模型单次推理计算量（稀疏化、量化、投机解码）、提升GPU利用率（连续批处理、编译器融合）以及换用租金更便宜的云、芯片（国产替代、专用ASIC）等方面的尝试，平均tokens定价实现了较大降幅。此外模型厂商还进一步通过“模型分层+价格分层”的多样化策略压低模型的使用门槛，让中小预算客户也可接入，比如：OpenAI 用GPT-5-mini/nano覆盖轻量场景；Google以Gemini 2.5 Flash 主打“极速低价”；Anthropic用Claude 3.5 Haiku 提供中等规模、高性价比选项等。我们认为当模型使用成本下降，企业/个人调用ROI随之上升，更多应用需求将从观望向采购转化。

报告节选：

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）