2025年计算机行业大模型及AI应用专题报告:从Tokens角度跟踪AI应用落地进展

  • 来源:国海证券
  • 发布时间:2025/09/16
  • 浏览次数:416
  • 举报
相关深度报告REPORTS

计算机行业大模型及AI应用专题报告:从Tokens角度跟踪AI应用落地进展.pdf

计算机行业大模型及AI应用专题报告:从Tokens角度跟踪AI应用落地进展。Tokens:模型定价的主要单位,与收入同步高增Tokens是大语言模型用来切割自然语言文本的基本单位,本质反映大语言模型计算量。在推理过程中,token是计算的基本单位,模型对每个token的处理都需要消耗计算资源,处理的token数量越多,计算量会呈平方级增长。OpenAI、Anthropic、字节跳动等基模厂商的主流商业模式包括C端订阅/付费/间接和B端行业客户/API调用。同时,tokens是模型变现中的最小单位,厂商主要围绕tokens定价。模型厂商以tokens为主要定价单位的底层逻辑是算力投入,模型调用时...

1、Tokens:模型定价的主要单位,与收入同步高增

Tokens调用量本质:反映大语言模型计算量

Tokens 是大语言模型(LLM)用来切割自然语言文本的基本单位,可以直观的理解为“字”或“词”。各大模型的切割规则不完全相同,通常1个中文词语、1个英文单词、1个数字或1个符号计为1个 token,并赋予相应的数字编号。一般情况下, token 和字数的换算比例大致为——1个英文字符≈0.4个token、1个中文字符≈0.5至1个token,可以近似地认为一个汉字就是一个 token。

Tokens调用量本质反映大语言模型计算量。大语言模型将输入文本切割为tokens,并转换为相应数字编码,经模型内部推理计算后,最终以一连串tokens的形式进行文本输出。在这个过程中,token是计算的基本单位,模型对每个token的处理都需要消耗计算资源,处理的token数量越多,计算量会呈平方级增长。因此,tokens调用量本质反映了模型推理过程的计算量。

模型厂主流商业模式:C端订阅/付费+B端行业客户/API调用

OpenAI、Anthropic、字节跳动等基模厂商的主流商业模式包括C端订阅/付费/间接和B端行业客户/API调用:1)C端:原生聊天助手、工具类原生应用(影视、图片、编程等)的订阅收入、付费功能以及与内部C端产品整合后的间接收入(如Google Chrome);2)B端:为大客户落地AI应用、企业直接API调用。 Tokens是模型变现中的主要单位,厂商主要围绕tokens定价:无论是C端打包收费还是B端按量计价,模型厂商定价都以tokens为核心单位。

以tokens为定价单位的底层逻辑:算力投入

模型厂商以tokens为主要定价单位的底层逻辑是算力投入:模型调用时的tokens消耗量与相应算力投入存在强关联性。大模型处理tokens的计算过程需调用底层硬件(如 GPU/TPU)的算力/显存和能源、网络等,并直接反映在成本结构中。 1)底层硬件的算力/显存:对应GPU/TPU 集群的采购/运维折旧或租用成本。以租用为例,单张GPU 处理tokens计算时占用显存,相应拉长任务时间。租金成本可近似量化为FLOPs(即单次推理浮点计算量)×1/(GPU利用率)×1/(云、芯片租用单价/小时)。 2)能源、网络:电力消耗随计算量(即tokens处理量)增长,网络传输成本亦与输入输出 tokens

Tokens调用量:与收入同步高增

模型厂商营收正与其tokens调用量呈现显著同步的高增趋势,特别是对于OpenAI、Anthropic。其商业模式为典型的C端订阅/付费和B端行业客户/API调用,收入与tokens调用量关系紧密。2024年6月至2025年6月,OpenAI大模型基础设施——微软Azure云的日均tokens调用量从0.55万亿上涨至4.40万亿,与此同时,OpenAI年化营收(ARR)从2024年12月的55亿美元增长至2025年6月的突破100亿美元,并在2025年8月达到120亿-130亿美元。

2、Tokens调用量应用端拆解:B+C双端

C端Tokens调用量拆解总结——看好大流量池产品内部附加AI功能

驱动一:大流量池C端产品内部附加AI功能。以谷歌搜索为例:2024年5月,谷歌搜索上线AI Overview功能,至2025 年二季度,AI Overview功能月活已超20亿。分别假设单用户AI Overview使用次数(被动)/日、单次tokens消耗量为1至3次(据我们 估算Chrome浏览器单用户日均搜索次数约为4.67次)、800tokens至 1600tokens,可以得出AI Overview功能单日tokens消耗量在1.6至9.6万 亿区间内,在2025年7月Google日均tokens调用量中的占比为4.9%至 29.4%。 抖音、剪映、今日头条等同样为大流量池C端产品,月活量级已达到 10亿(2025年3月)、7亿(2025年7月)、2.6亿(2024年下半年月 均)。 类比百度之于搜索、美图秀秀之于图像,我们看好大流量C端应用的 AI改造长期逻辑。据非凡产研,2025 年 7 月百度AI搜索访问量居国内 智慧搜索品类第一、美图秀秀的国内访问量/存量月活、新增下载量依 旧居图像品类第一,且月度收入仍在环比提升。

C端Tokens调用量拆解总结——聊天助手是OpenAI重要tokens调用量驱动因素

驱动二:聊天助手——OpenAI重要Tokens调用量驱动因素。 即模型厂AI原生聊天助手。存量方面:2025年7月ChatGPT、Gemini、豆包、Grok、Claude在APP端的月活分别为5.77亿、2.79亿、1.71亿、0.21亿、708万;网页端月活分别为4.38亿、1.16亿、942万、0.28亿、0.16亿。增量方面:GeminiAPP和豆包APP月活明显增长,7月月活用户数为1月的15.5倍、1.9倍。ChatGPT聊天助手保有较大C端用户规模,2025年7月APP+网页端合计月活达10.15亿,是OpenAI重要Tokens调用量驱动因素。对比OpenAI、Anthropic收入结构,2025年7月,OpenAI120亿美元ARR收入中,ChatGPT聊天助手(APP/网页端)带来的C端消费者订阅收入达55亿美元,占比45.8%;而Anthropic的消费者订阅ARR收入(来自ClaudeAPP/网页端)为7亿美元,占比14%。 2025年6月,微软日均tokens调用量为4.46万亿,对应C端9.61亿月活及B端行业企业客户和直接API调用。结合Gemini、豆包、Grok、Claude聊天助手月活量级,我们推算由AI原生聊天助手带来的日均tokens调用量不会超过1万亿tokens,在Google及字节日均tokens调用量中份额均较小,为3%和6%。

C端Tokens调用量拆解总结——图像、视频赛道中高频多模态需求带来更多tokens消耗

驱动三:新兴应用——图像、视频赛道拥有较大用户基础,高频多模态需求带来更多tokens消耗 除产品内置AI功能、聊天助手外,图像、视频、陪伴、办公、教育赛道内均出现了有较大潜力的C端新兴AI应用。字节跳动进行多维度布局,推出醒图/星绘(图像)、即梦(视频)、猫箱(陪伴)、豆包爱学(教育)等AI应用。其中醒图、即梦7月月活达到4924万(当月收入59万美元)、1393万(当月收入58万美元),已成为图像、视频赛道内拥有较大用户量级的产品;猫箱7月月活794万,当月收入达112万美元(qoq+71%),商业转化效率较高。 图像、视频类产品对多模态输入输出有高频需求,相应带来更多tokens消耗;例如Canva接入gpt-image-1、Leonardo.AI,用于文生图、文生视频、图像补全等除文本模态外的编辑、生成场景。根据Gemini、Kimi等大模型的折算口径,单张图片的输出(输入)tokens消耗量在1024(kimi)—1290(Gemini)之间;我们假设5–15秒视频短片按4fps计算,输出(输入)tokens消耗量在6000—18000之间,文生图、图像补全、文生视频的单次tokens消耗量。

3、展望:技术迭代解锁应用需求,算力投入加大模型厂预期乐观

大模型技术迭代:推理增强+多模态+Agent化+长上下文

大模型不再只靠“更大参数”取胜,而是向推理增强、多模态、Agent化、长上下文转型。 以GPT-5和Grok4为例: GPT-5把“更强的推理能力(通过引入test-timecompute)+多模态+更长上下文+更严格的安全控制等”置于产品默认层面;  Grok4核心升级则是把“原生工具调用+多代理协同推理+超长上下文等”做成一个可商用产品。 推理增强、多模态、Agent化、长上下文转型的技术迭代趋势也将增强AI在更复杂、更具备“生产力”的关键场景下的实用性、准确性,并且使得AI应用加速落地。

大模型技术迭代:存量场景tokens增长空间

大模型技术迭代将带来存量AI应用场景的tokens调用量增长。例如“推理增强”将模型的一次性回答拆解为多步并进行多次调用;“多模态”需增加对图片、语音、视频等的编码解码;“Agent化”会在模型生成的过程中引入工具链;“长上下文”使得大型文档/项目可被全量处理而无需截断。

算力成本优化、多价格策略压降使用成本,提高企业/个人调用ROI

模型厂优化算力成本压低tokens定价。2024-2025两年,为优化大模型算力成本(tokens成本=FLOPs即单次推理浮点计算量×1/(GPU利用率)×1/(云、芯片租用单价/小时)),模型厂商进行了压缩大模型单次推理计算量(稀疏化、量化、投机解码)、提升GPU利用率(连续批处理、编译器融合)以及换用租金更便宜的云、芯片(国产替代、专用ASIC)等方面的尝试,平均tokens定价实现了较大降幅。 此外模型厂商还进一步通过“模型分层+价格分层”的多样化策略压低模型的使用门槛,让中小预算客户也可接入,比如:OpenAI 用GPT-5-mini/nano覆盖轻量场景;Google以Gemini 2.5 Flash 主打“极速低价”;Anthropic用Claude 3.5 Haiku 提供中等规模、高性价比选项等。 我们认为当模型使用成本下降,企业/个人调用ROI随之上升,更多应用需求将从观望向采购转化。

报告节选:


(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

相关报告
评论
  • 相关文档
  • 相关文章
  • 全部热门
  • 本年热门
  • 本季热门
  • 全部热门
  • 本年热门
  • 本季热门
  • 最新文档
  • 最新精读
分享至