海内外大模型厂商产品迭代方向和下游应用趋势分析

海内外大模型厂商产品迭代方向和下游应用趋势分析

最佳答案 匿名用户编辑于2025/07/14 15:58

以下分析海内外大模型厂 商产品迭代方向和下游应用趋势。

一、OpenAI 与谷歌在 AI 大模型商业化策略上的对比分析

1. OpenAI在技术和产品优势的基础上,推动模型商业化落地。根据Pymnts网站,OpenAI公司2024年营收37亿美元。OpenAI的CFO Sarah Friar 在2025年2月提到,OpenAI公司2025年的营收有可能达到110亿美元。2025年6月, OpenAI宣布其年化收入(annual recurring revenue)已达到100亿美元。OpenAI 收入增长的趋势一方面与其用户规模相关,另一方面与其AI大模型产品的商业化策 略相关。

OpenAI的用户规模呈现稳定增长的趋势。OpenAI推出的o3、GPT-4o等模型性能持 续提升,功能不断丰富,从而驱动其用户规模持续增长。OpenAI月活用户数量由2024 年5月的3.7亿人,增长至2025年5月的5.2亿人。根据Intelliarts的数据,截止2025年 1月,目前已有超92%的全球500强企业接入ChatGPT API,涵盖金融、医疗、制造 等核心领域,包括可口可乐、Shopify、Snapchat、PwC、Quizlet、Canva和Zapier 等知名公司。

OpenAI通过打造产品的差异化竞争优势来提升模型价格。作为AI大模型行业的引领 者,OpenAI开发的大模型实现的技术创新,往往在行业内形成较强的产品优势。在 定价策略上,OpenAI凭借技术和产品的优势定下较高的模型价格。例如,基于其高 阶推理能力的领先优势,OpenAI在24年9月推出o1大模型时定下了每百万tokens输 入/输出价格15美元/60美元的价格;25年4月推出o3模型时定下了各模型中最高的价 格,即每百万tokens输入/输出价格10美元/40美元。GPT-4o在其升级了图像生成功 能后,将每百万tokens的输出价格由此前的15美元提升至20美元。 另一方面,在OpenAI推出大模型后,其他厂商参考其训练方法,在后续一段时间研 发 并 推 出类 似 的 大模型 产 品 对 OpenAI 产 品价 格 有 一定 影 响 。例如 , 随 着 DeepSeek-R1、Gemini 2.0以及Claude 3.7的推出,o3大模型每百万tokens输入/输 出价格降至2美元/8美元。

OpenAI通过增强ChatGPT的通用化能力,扩大应用场景的覆盖面。下游用户使用 ChatGPT频次较高的场景包括通用型的研究、科学研究代码辅助等场景。这与o1、 o3等模型在高阶推理能力方面较为突出有关。而针对企业办公场景中的邮件撰写、 商业研究、文案写作等使用频次较高的场景,ChatGPT也有较高的份额。在B端场 景中,许多员工个人使用后向公司推荐,推动了OpenAI企业业务增长,付费企业用 户数量大幅增加,OpenAI的付费企业用户由2025年2月的200万提升到2025年6月的 300万。从实际的拓展情况来看,研究类场景的使用份额超过了通用办公场景,这反 映了ChatGPT在研究类场景中更加具有不可替代性,o1、o3等模型在数学、科学和 编程等方面已形成独有的优势,形成了较大的用户群体。

OpenAI打造的多个大模型的产品矩阵,有效提升商业化落地效果。GPT-4o、o3等 大模型广泛赋能各行业客户,包括软件开发、在线旅游服务、创意设计、金融、零售等;其应用的场景包括客户服务、广告营销、产品设计、人员招聘、运营数据管 理等。从实际的使用案例来看,部分客户基于不同业务流程中的要求,采用OpenAI 多个模型来赋能。例如,Hebbia公司基于o3‑mini、o1和GPT‑4o模型构建多代理AI 平台Matrix,实现金融与法律工作的端到端自动化。OpenAI针对不同模型打造出特 色化的竞争优势,提升了商业化落地过程中的效果。

OpenAI大模型高阶推理和多模态能力持续增强。OpenAI大模型的泛化能力与其训 练的数据和算法相关。OpenAI通过调整和优化训练方法,引入了包括CoT思维链技 术、MLA多头潜在注意力技术等降低模型幻觉,提升模型的推理能力。此外,OpenAI 也尝试不同训练数据的组合,增强模型的多模态能力,拓展应用场景。o3、o4等高 阶推理能力较强的模型,增强了OpenAI在科研、软件开发、等行业门槛较高场景应 用的优势。而以GPT-4o为代表的多模态能力的增强则扩大了OpenAI应用场景的覆 盖面,包括视频类创意设计场景等。

o3大模型的工具调用功能和高阶推理能力是亮点。在o1大模型的基础上,o3大模型的高阶推理能力进一步提升。OpenAI o3大模型对于高阶的科学、数学以及编程问 题的推理测评结果中均获得了比GPT-4o更高的分数。OpenAI o3大模型在解决博士 级别的科学问题时,测评分数为83.3分,显著高于o1大模型的78.0分。此外,o3大 模型针对应用场景可自主调用ChatGPT中的各种工具,包括网页搜索、文件和数据 分析、视觉理解、代码生成、图片生成等。例如,在o3大模型解决迷宫寻路问题时, 其基于对于迷宫图片的视觉理解,生成代码来判断每一个路径选择成功的概率,最 终选择出了最佳路径。当前o3大模型的高阶推理能力已成为其在数学、物理等科学 研究领域差异化优势的关键。

GPT-4o多模态模型进一步拓展功能边界。2025年3月25日,OpenAI推出GPT-4o的 图像生成功能,能够通过原生多模态模型生成准确逼真的图像,在精准文本渲染、 多轮生成、精确遵循提示等领域具备突出优势。与基于扩散模型的DALL•E不同, GPT-4o的图像生成能力基于原生内置于ChatGPT中的自回归模型而构建,此外,原 生整合了文本、图像、代码等多模态数据,采用端到端的架构进行联合训练,使模 型能直接学习到文本描述与图像元素的对应关系等跨模态关联性。GPT-4o的图像生 成效果从“美工”级别跃升至具备“半专业”级别,有效拓展其在广告营销、影视 制作等领域的应用。

2. 谷歌以Gemini大模型作为生态入口,扩大AI工具和云业务的商业化落地。使用Gemini的开发者群体增长较快,基于研究需求使用Gemini大模型的用户群体 占比较高。截止2025年5月,使用Gemini API接口开发各类AI应用的开发者已超过 700万,是去年同期开发者数量的5倍。这不仅反映了Gemini大模型的代码能力较强, 谷歌云PaaS平台上的Vertex AI和AI Studio提供的各类AI工具和开发环境,也推动了 开发者使用Gemini。分用户类别来看,2025年,用户使用Gemini大模型较多是出于 研究的需求,这类用户占整体Gemini用户的40%;其次约有30%的用户使用Gemini 来创作文案、诗歌以及代码等;基于工作和学习目的来使用Gemini大模型提升效率 的占总体用户量的20%。基于研究目的的客户群体占比较高反映了Gemini大模型回 答内容在严谨性和精准性方面具有一定优势。

谷歌充分发挥平台能力,Gemini大模型与云端的AI工具满足用户业务需求。Gemini 大模型不仅在客户服务场景中提供基础的人机对话能力,还深入企业业务流程中, 解决实际的需求痛点。例如,零售公司Best Buy借助Gemini,可解决产品故障、重 新安排订单配送等问题;网安公司Rapid7使用Gemini优化网络安全支持流程,使案例处理时间减少30%;数据库公司Oracle将数据库服务与Gemini、Vertex AI相集成, 提升数据处理效率。我们认为,谷歌在开拓企业业务的过程中,不仅提供Gemini大 模型的生成能力,而是在充分理解企业需求痛点的基础上,结合Vertex AI平台的各 类工具,解决业务流程中的问题。

Gemini 2.0 Flash的多模态能力扩大创作和娱乐相关用户群体。与Gemini 1.5相比, Gemini 2.0 Flash新增的输出模态包括图片和文字的混合内容,以及文字转语音的混 合内容。此外,Gemini 2.0大模型可以根据摄像头中的实景以及屏幕中的内容进行 实时交互。2025年2月,Gemini 2.0 Flash向所有用户开放,并通过Google AI Studio 和Vertex AI向开发者开放API接口。我们认为,Gemini 2.0 Flash多模态的交互能力 以及高阶推理能力有效拓展了应用场景,吸引更多用户的使用,从而推动Tokens快 速增长。

Gemini 2.0 Flash是跨文本、视觉和音频端到端训练而来的新模型,所有模态的输 入和输出都由同一神经网络处理。相较于此前的多个模型协作的多模态推理形式(如 GPT-4的多模态推理需要调用三个模型),Gemini 2.0 Flash具有延迟低、输出tokens 速度较快的特点。Gemini 2.0 Flash每秒可生成263个tokens;Gemini 2.0 Flash每秒 可生成194个tokens显著高于同行业其他AI大模型。

AI大模型的代码生成、高阶推理等功能在下游应用的重要性持续提升。从下游用户 使用ChatGPT和Gemini大模型的情况来看,文字生成能力并不在下游用户的使用中 占主导地位。2025年以来,开发类需求呈现出快速增长的趋势。截止2025年5月, 使用Gemini API接口开发各类AI应用的开发者已超过700万,是去年同期开发者数量 的5倍。从ChatGPT的使用趋势我们也观察到同样的情况,2025年5月,通用型的研 究、科学研究代码辅助等场景占ChatGPT的使用比例分别为36.5%、18.4%和14.5%, 高于邮件撰写和文案写作等场景。总体而言,代码生成、视觉理解、高阶推理等能 够解决下游用户实际问题的功能在下游用户使用频次和用户数量都呈快速增长趋势。

根据SimilarWeb的数据,在各类AI大模型的应用中,2025年以来,增速最快的是 代码编程和软件开发。软件开发本身高度标准化、流程化,代码编写、测试、调试、 文档生成等环节工作量大且重复性高,AI大模型能够提升开发效率,减少人工投入。 其次,AI与开发工具的适配性较强,代码编辑器、IDE等工具可以低成本地嵌入大模 型功能,易于落地。当前,在AI大模型赋能软件的相关应用主要分为两大类,一类 是以GitHub Copilot为代表,在既有的IDE软件上加上AI代码生成功能的模块;另一 类是以Cursor为代表AI代码生成功能突出的IDE工具。

AI大模型在代码编程和软件开发场景中仍有较大提升空间。传统软件开发流程通常 包括需求分析、架构设计、编码开发、集成测试、部署维护等阶段。当前,AI大模 型在基础类算法的生成方面表现较好。但是需求分析、架构设计等任务需要的不仅仅是代码生成能力,而是深刻理解应用场景基础上,开发人员实现算法设计思路方 面的创新。对于这类具有一定创新性的任务,AI大模型表现较为一般。展望2025年 下半年,代码编译器产品正结合AI大模型功能向架构设计、逻辑设计以及诊断优化 等更多环节拓展。包括艾普阳公司的SnapDevelop和EasyDevelop等IDE产品有望结 合AI大模型的生成功能实现从代码编写到代码诊断全方位产品力的提升。

AI模型厂商和互联网公司AI大模型的商业化策略不同。我们对比OpenAI和谷歌两家 厂商AI大模型的商业化策略,可以发现明显差异。OpenAI的业务以大模型为主,较 为单一,其商业化则主要依赖于Tokens调用规模以及价格。因此,保持AI大模型在 功能和性能的绝对领先地位尤其重要。OpenAI凭借o3、GPT-4o等模型在功能和性 能上的优势,不仅可以定较高的tokens的调用价格来推动商业化,还巩固了其生态 优势和市场地位。从SimilarWeb的访问量数据来看,OpenAI的大模型日均访问量远 超过其他厂商大模型访问量的总和,领先优势明显。 而Gemini大模型的调用价格在行业中并不高,这或许与其在谷歌AI产品商业推广战 略的定位不同有关。一方面,Gemini作为效率工具,对内赋能各业务线推动产品升 级和成本节省,截止2025年5月,Gemini已应用于谷歌旗下15款用户量超5亿的产品 中;另一方面,Gemini作为谷歌AI产品商业化的入口,引导下游用户使用Vertex AI 和AI Studio中的AI工具带动云业务的商业化。根据谷歌财报,25Q1,谷歌云营收 122.6亿美元,同比增长28.1%。这与此前计算的Gemini大模型tokens调用量的营收 在亿美元级别形成了鲜明对比。我们认为,由Gemini大模型撬动整体AI相关收入的 增长或许是更符合谷歌整体AI商业化拓展的策略。

二、字节多线布局豆包大模型,对内对外广泛赋能

2025年以来,豆包大模型在AI工具、教育和信息处理场景的Tokens的处理量快速 增加。随着豆包深度推理模型的发布,AI工具类Tokens的处理量快速增长,2025年 5月tokens的处理量较2024年12月增长了4.4倍,其中AI搜索相关tokens增长了10倍, AI编程tokens增长了8.4倍。此外,由于豆包大模型视觉理解能力的提升,K12在线 教育相关tokens增长了12倍。此外,豆包大模型在智能巡检、图片信息理解等场景 的拓展,信息处理场景的Tokens的日均处理量在2025年5月也突破百亿。

豆包大模型对内对外广泛赋能。截止2024年11月,豆包大模型已在字节跳动内部50 多个业务,包括抖音、头条等数亿DAU的产品中使用。此外,豆包大模型也广泛赋 能消费电子、汽车、金融、互联网医疗等行业客户。除了在较为通用性的场景中提 供人机对话能力,还帮助部分企业用户训练垂直领域专业大模型。例如,医渡科技 在火山方舟上基于豆包大模型进行了医疗数据的叠加训练和精调,通过继续训练提 升了医疗领域专业性。我们认为,字节AI产品的商业化落地,不仅提供豆包大模型 的生成能力,还提供火山引擎的算力服务和AI工具等,满足不同行业用户的定制化 需求。

国内Tokens的调用量正逐渐由大语言模型转向多模态模型驱动。从Tokens使用的 情况来看,2024年,Tokens的调用量仍然以大语言模型、文本类的能力为主。自 2024Q4起,语音类模型调用量也开始增长。预计到2025年,图像、视频类大模型 的调用量将快速增长。在这样的趋势下,AI大模型产品品类丰富,多线布局的公司 有望获得市场先机。以字节跳动为例,其开发的豆包大模型家族提供了包含自然语 言、语音、视觉等多类型的多模态模型,可灵活应用于To B/To C各种业务场景。在 平台方面,火山方舟提供模型精调、推理、评测等全方位功能与服务,帮助企业定 制化落地大模型。火山引擎还通过HiAgent、扣子等AI应用开发平台,支持企业灵活 开发行业垂直智能体应用。

总体而言,随着国内大模型性能持续提升,产品矩阵逐步完善,以豆包为代表的国 内AI大模型调用量快速增长。下游客户对国内AI大模型的接受程度呈明显上升趋势。 在此基础上,文生图、文生视频等大模型的进展较快,能力边际向好,有望助力AI 应用的拓展。

三、国内视频生成类 AI 大模型持续迭代,可灵 AI 用户规模快速提升

视频生成AI大模型用户规模快速增长。随着扩散模型和Transformer模型技术的逐渐 成熟,国内外视频生成类大模型持续迭代。2024年2月,OpenAI发布首款视频生成 模型Sora,可实现一分钟时长视频的自动生成。2024年6月,快手也推出了视频生 成类AI大模型可灵。根据快手官网,可灵AI自2024年6月上线至2025年4月的10个月 时间里,月活用户数量增长25倍,全球用户规模已突破2200万。这些用户在可灵AI 的平台上创作了1.68亿个视频和3.44亿张图片。根据SimilarWeb的数据,2025年以 来,可灵AI在全球视频生成大模型中的访问量居全球首位。

功能提升和性能优化是可灵AI大模型用户量、使用量快速增长的主要原因。自2024 年6月,可灵AI发布并同步上线“文生视频”和“图生视频”功能,至2025年4月, 可灵AI累计完成迭代超20次。2025年4月,快手发布的可灵2.0,采用了Multi-modal visual language(MVL)技术,让用户能够结合图像参考、视频片段等多模态信息, 将身份、外观、风格、场景、动作、表情、运镜在内的多维度复杂创意,高效地传 达给AI,从而实现在语义响应、动态质量、画面美学等方面的生成效果显著提升。

可灵AI大模型采用预付费的会员制进行收费。可灵AI提供“预付费资源包”的形式 收费。具体而言,用户购买含固定积分数量的资源包,积分可用于文生视频、图生 视频等API能力调用,并按实际生成视频的模型版本、规格扣减对应积分。自2024 年6月的可灵1.0到2025年4月的可灵2.0,会员包的收费价格有所提升。以高级会员 为例,2024年6月,可灵1.0的钻石会员收费333元/月,可生成800个视频。而2025 年4月,可灵2.0的套餐三收费1.6万元/月,可生成20000个视频(可灵V1模型)。一方面,随着算法的优化,模型成本的降低,单条视频生成收费的价格有所降低;另 一方面,由于用户生成视频数量和频次的增多,会员费的价格有明显提升。

可灵AI生成视频的价格随着生成时长和生成质量的提升而增加。以生成5秒时长的视 频为例,可灵V1模型标准版收费1元,可灵V1.5模型标准版收费2元,可灵V1和V1.5 高品质版收费3.5元,可灵2.0模型大师版收费10元。此外,10秒的视频生成的费用 通常是同规格5秒视频生成费用的2倍。单条视频的定价较为精细化,不仅满足不同 用户群体的实际需求,也凭借更好的生成质量和更长的时长来提升视频生成的整体 价格范围。

AI文生视频技术仍有较大提升空间。从生成内容质量来看,视频模型的生成能力好 坏体现在三个维度:第一,准确性,即判断生成的视频内容是否和输入的prompt或 图片匹配,符合用户预期;第二,一致性,即生成的视频中的主体、背景和运动是 否有连贯性,是否符合真实世界的物理规律;第三,信息丰富度,即在一段时间内 生成的视频是否能够呈现足够的故事性。从生成时长来看,当前生成视频的时长普 遍较短,大部分在几秒到两分钟以内,等待时间比较长。后续随着AI大模型生成内 容质量和时长的提升,其有望向影视创作、广告营销、游戏开发等更广阔领域场景 拓展,扩大下游用户覆盖面。

随着单条视频生成价格的下降,商业化落地有望加速。当前各厂商开发的视频生成 大模型的算法框架还存在显著差异,包括扩散模型、自回归模型、VAE叠加等。相 较于大语言模型,视频生成类大模型发展的时间较短,算法方面仍有较大进步和发 展的空间。后续随着算法的优化以及数据工程的创新,视频生成大模型的成本有较 大降低的空间。2025年6月,MiniMax发布的海螺2.0的价格,较Runway、Seedance 等竞品进一步降低。后续随着视频生成价格的下降,相关产品商业化的节奏有望加 快。

视频生成大模型的功能持续升级迭代,深化应用场景的融合。相较于文字和图片的 生成功能,视频的生成是结合了文字、图片、音频等多种模态,对模型的功能性要 求更高。当前,各厂商开发的模型以“文生视频”和“图生视频”为主。而在实际 的视频设计的过程中,专业的设计者往往需要对音效、镜头角度、画面色调等细节 进行编辑。部分厂商在视频生成的基础上,针对用户对于细节编辑的需求,拓展了 新功能。例如,2025年6月,万兴科技发布的天幕音视频大模型2.0,推出的“文生音效”和“运镜控制”等功能,较好的满足了在影视创作场景的专业化需求。我们 认为,在创意设计行业深耕多年的公司充分了解用户的需求痛点,在此基础上拓展 的新功能已经形成产品的差异化竞争力,有望提升用户付费意愿,从而打开商业化 空间。

四、AI 大模型幻觉持续下降,B 端 AI 应用的接受度有望提升

生成内容的“幻觉率”是决定其能否在更多垂直领域落地的关键指标。不同行业对 于AI大模型幻觉率的接受程度不同。在医疗领域,其与生命安全密切相关的行业特 殊性决定了医疗行业用户对幻觉容忍度较低;在制造业领域,生产制造环节对于数 据精度的高要求也使得该行业客户对幻觉的容忍度较低。我们认为,AI幻觉是导致 AI大模型较难在医疗、制造业等领域应用的主要原因。采用过程监督的强化学习或 某一特定领域数据训练等方式有效降低AI大模型的幻觉,幻觉率下降到一定程度后, 有望拓展和深化各行业应用场景。

AI大模型生成内容的“幻觉”持续下降。根据测评机构SuperCLUE的数据,深度求 索公司25年5月28日推出的DeepSeek-R1-0528较25年1月2日推出的R1大模型的幻 觉比率下降了7.16个百分点,降低至13.86%。且新版DeepSeek-R1在文本摘要、阅 读理解、多问本回答和对话补全四个基准任务上的幻觉现象均有不同程度的改善。 其中,文本摘要和阅读理解任务的幻觉率降低最为显著,分别降低了9.27%和14.49%。 随着训练路径与模型架构的不断优化,各大模型“幻觉”有望持续下降,这为国内 大模型在各场景的商业化拓展奠定了较好的基础。

训练方法的优化和数据的丰富是AI大模型“幻觉”下降的主要原因。自2023年以来, 各家厂商尝试了多种方法来降低AI大模型的幻觉。RLHF(基于人类反馈的强化学习)、 MoE(混合专家)架构等新的训练方法的采用有效降低了AI大模型的幻觉,在通用 问题方面的回答效果显著提升。而针对部分专业性较强的场景,基于垂直领域数据 进行再训练也取得了较好的效果。但短期内,各类方法的尝试可以减少和缓解AI大 模型的“幻觉”的出现,而难以根除“幻觉”。因此,各类AI应用拓展的节奏,不 仅取决于AI大模型本身技术的进步,也要根据各行业、各场景对于模型“幻觉”的 容忍度而定。

大模型幻觉缓解方法各有优劣。大模型幻觉的缓解方法较为丰富,但也存在一些局 限性。MoE方法涵盖从模型初始结构、模型训练与微调过程、模型后处理方法等各 个方面,灵活且多样,并易于根据不同幻觉成因进行迭代优化。但MoE同样也有一 些局限性,包括缺乏一定的解释性以及难以平衡生成性能和幻觉水平等。基于某一 特定领域的数据来微调模型尽管通过提高数据集质量的方式减少了幻觉,但其需要 根据每一个任务单独找到高质量的数据集,缺乏各行业的通用性。我们认为,在模 型训练的过程中,开发人员或可将多种缓解大模型幻觉的方法结合,在不同级别、 不同阶段来采用合适的方法或许可以达到降低模型幻觉的最佳效果。

在通用AI大模型基础上,针对医疗领域数据进行再训练已体现出较好的幻觉缓解效 果。传统的AI大模型因医疗场景数据匮乏、知识可信度低等缺陷产生“幻觉”,易 导致错误推断,因而难以满足病诊疗需求。2025年2月,北京协和医院与中国科学 院自动化研究所共同研发的“协和·太初”罕见病大模型正式进入临床应用阶段。 该模型的训练数据包括罕见病知识库和基因检测等专业数据。此外,该模型也引入 了主动感知交互、“数据+知识”混合驱动以及DeepSeek-R1的深度推理能力,能 有效抑制AI幻觉。 我们认为,缓解AI大模型幻觉的方法较多,对于专业门槛较低,数据获取难度较小 的行业而言,采用过程监督的强化学习或能有效降低AI大模型的幻觉;对于专业性 较强,数据难以通过公开渠道获得的行业而言,基于该特定领域的数据再训练是降

参考报告

GenAI行业专题报告:基于Tokens调用量和付费变化的分析,判断AI大模型商业化的进展和应用趋势.pdf

GenAI行业专题报告:基于Tokens调用量和付费变化的分析,判断AI大模型商业化的进展和应用趋势。基于Tokens使用量来收费的各类AI应用给模型厂商贡献营收快速增长。我们以谷歌Gemini和豆包大模型作为典型案例,分析其tokens的增长趋势并对产品可实现的营收进行敏感性分析。从分析结果来看,以上两个大模型25年营收规模较24年有望大幅提升。AI应用商业化落地给模型厂商贡献的营收呈快速增长趋势。AI大模型的代码生成、高阶推理等功能在下游应用的重要性持续提升。2025年以来,开发类需求呈现出快速增长的趋势。截止2025年5月,使用GeminiAPI接口开发各类AI应用的开发者已超过700万...

查看详情
相关报告
我来回答