2025年计算机行业大模型系列报告（三）：从“思考”到“行动”的系统级重构

来源：财通证券
发布时间：2025/12/27
浏览次数：146
举报

相关深度报告REPORTS

计算机行业大模型系列报告（三）：从“思考”到“行动”的系统级重构.pdf

计算机行业大模型系列报告（三）：从“思考”到“行动”的系统级重构。全球大模型从“快思考”走向“慢思考”，从算力堆砌转向算法与训练范式优化。2025年四季度，头部厂商在模型侧的竞争，从追求对话速度和表层“生成质量”的System1快速反应，转向构建具备长链条推理、自我反思与工具调用能力的System2慢思考体系。Google通过Gemini3+DeepThink把多步推理产品化，OpenAI在“红色警报”下押注Garlic线修复预训练缺陷、提升知识密度，...

1 全球大模型结构性拐点：从“快思考”到“慢思考” ，从“生成”到“行动”

全球大模型正从“快问快答的生成模型”迈向“能推理、能行动的智能体”，进入新一轮结构性拐点。行业主线也从内容生成升级为两端能力：多模态长链条推理（看是否“想得清楚”）与真实系统任务执行（看是否“干得成事”）。Zhong Zhi Li 等在《From system 1 to system 2: A survey of reasoning large language models》中将前者对应为偏直觉启发式的 System 1，将后者所需的分步分析推理归为 System 2。论文认为当前大模型发展主要通过将基础大模型与符号逻辑、蒙特卡洛树搜索、强化学习等技术结合，再辅以结构搜索、奖励建模、宏动作框架等核心方法，推动模型从 System 1 向 System 2 演进。简言之，模型从早期依赖模式匹配的“快思考聊天机器人”，走向具备 System 2 特征、能够分步规划与执行的智能体（Agent），行业竞争维度也从“谁的回答更像人”转向“谁真正具备连续决策和任务闭环能力”。

“慢思考”，本质是让模型在给出答案前先“多想几步”，通过结构化推理链条提高决策质量和可控性。在技术路径上，一方面在训练阶段显式引入链式思维、过程监督数据和强化学习，让模型习得“先拆解、再推理、后给结论”的解决问题模式，而非直接从问题跳到答案；另一方面在推理阶段通过生成多条中间思路并打分筛选、先生成详细推理草稿再压缩成简洁结论、甚至采用“思维树搜索” 等方式，在不同推理路径之间进行搜索和自我校正。与传统“一次前向推理给出单点答案”的“快思考”相比，“慢思考”在时间和算力上成本更高，但换来的收益是更长、更稳定的逻辑链条，更低的幻觉率，以及更强的可解释性和安全可控性。

头部厂商围绕 System 2 能力加速迭代，Gemini 3 与 DeepSeek-V3.2 等模型成为“慢思考”范式的代表。以 Google Gemini 3 和 DeepSeek-V3.2 为代表，新一代模型不再满足于基于统计模式的快速预测，而是通过强化学习（RL）、稀疏 MoE 架构和长上下文训练，显著拉长推理链深度，让模型可以“多想几步再回答”。Gemini 3 在 Humanity’s Last Exam、GPQA Diamond、Math Arena Apex 等高难度测试中的领先表现，意味着其在数学与编程等领域已达到“博士级水平”；DeepSeek-V3.2 则证明，在后训练阶段（ Post-training），通过优化奖励设计和思维链搜索路径，可以在成本远低于闭源巨头的前提下，实现更强的逻辑稳健性和推理一致性。

“慢思考”让大模型在复杂任务正确率、Agent 稳定性以及安全合规上同步变强，是从“能说”走向“会做”的必要前提：在数学、代码、科学推理等高结构化任务中，它显著降低“胡编乱造”，让答案不只像真而且细节更能自洽；在多步计划与动态调整场景里，它支持围绕中间目标迭代推理，为多 Agent 协作与长期任务链执行提供更稳的底座；同时推理路径更显性、可记录，企业在审计、合规与追溯上有了抓手，使模型更可控地进入金融、政务、医疗等高敏感流程。应用侧也因此从“对话框工具”跃迁为“操作系统级执行代理”：Gemini 3 深度融入 Search，把“链接列表”升级为模型生成的可视化讲解与可操作界面；字节豆包手机助手、阿里千问 App 通过 OS 权限与 API 打通，把跨 App 操作、自动比价、一键行程规划等复杂任务压缩成一句话触发的标准动作流。整体而言，全球 AI 正沿着“从快思考到慢思考、从生成到行动”的路径加速演化，竞争也从比参数和算力，转向比思考链深度、行动能力与场景渗透广度。

2 海外路径：推理、防御与重塑

海外巨头之间的竞争博弈，已不再停留在“模型评分谁更高”的单一维度，而是逐步演化为围绕三个关键方向的系统性较量：（1）将“慢思考”的链式推理能力产品化，并通过核心入口直接触达终端用户；（2）在算力约束日益刚性的背景下，实现推理密度与成本效率的最优组合；（ 3）完成自身研发与运营体系的再造，推动生产方式和组织结构与新一代 AI 深度耦合。在这一框架下，Google 通过模型架构和流量入口的双重升级重新转入进攻状态；OpenAI 则从此前的“遥遥领先”转为在“红色警报”机制下进行防御性调整；Anthropic 则以大规模工程实践和内部调研为抓手，系统呈现出生成式 AI 对软件生产关系和人才结构的重塑效应。

2.1 Gemini 3.0：模型架构与流量入口双重升级

测评表现亮眼，架构与“慢思考”双轮驱动代际优势。2025 年 11 月 18 日， Google 正式发布 Gemini 3，在 LM Arena 基准测试中以 1501 分登顶，并在多项高难度推理评估中展现出代际优势。Gemini 3 采用稀疏混合专家架构，仅在每次推理中激活少量“专家”子网络，在兼顾单位算力成本的前提下，把有效参数规模做得更大，并支撑起最高 100 万 token 的长上下文窗口以及原生多模态处理能力。在此基础上，Gemini 3 引入面向复杂任务的“Deep Think”增强推理模式：在 Humanity's Last Exam 中，标准模式得分为 37.5%，开启 Deep Think 后跃升至 41.0% （Claude Sonnet 4.5 仅为 13.7%）；在 GPQA Diamond 中得分 93.8%；在 Math Arena Apex 测试中取得 23.4%，远超 Claude Sonnet 4.5 的 1.6%。已有技术披露显示，Deep Think 并非简单“拉长思考时间”，而是在推理阶段引入多步推理链与自我验证，并针对 ARC-AGI-2 等需要代码执行的基准开放更高推理预算，从而在系统 2 式的“慢思考”场景中显著抬升复杂推理题的正确率。整体来看，Gemini 3 的领先不止来自单一的“长推理模式”，而是稀疏 MoE 架构、超长上下文、多模态感知与 Deep Think 推理范式的叠加结果，使其在高难度数学、科学及综合推理测试中，对传统单轮“快思考”模型形成了较为系统性的性能压制。

能力下沉到场景，搜索直接生成互动界面。Google 把 Gemini 3 的“慢思考”直接封装进用户入口层：以“核聚变可视化”示例，当用户提出“讲讲核聚变并画一个示意”这类问题时，Gemini 3 不只输出一段解释，而是自动生成对应代码并在结果页中渲染动态可视化效果，用户可以直接在搜索界面观看、调整参数、理解物理过程；在体育教学等场景中，用户上传一段打球视频，界面左侧保留原始画面，右侧由 Gemini 3 实时生成结构化要点拆解和训练建议，将“看一段视频” 升级为“获得一份标准化教学脚本”。

AI 搜索重构叠加云与订阅，拉动 Google 重回高增区间。从财务数据看，Gemini 3 推出并未削弱 Alphabet 的盈利能力，反而在放大既有广告与云业务的杠杆。 2024 年 Alphabet 收入结构中，Google Search + Other 约 1,981 亿美元，占总营收约 56.6%；YouTube Ads 约 361 亿美元，占比 10.3%，合计广告业务仍贡献近七成营收，是 AI 搜索重构的直接受益者。进入 2025 年，Q3 Alphabet 单季营收首次突破 1,000 亿美元至 1,023 亿美元，同比增长 16%；其中 Google Services 实现收入 871 亿美元，增长 14%；Search&other 实现收入 566 亿美元，增长 15%；YouTubeAds 实现收入 103 亿美元，同比增长 15%；订阅与平台设备实现收入 129 亿美元，同比增长 21%；Google Cloud 同样保持双位数高增。管理层在财报会上明确指出，Search 中的 AI Overviews、AI Mode 以及 Gemini 家族在 Cloud、Workspace、YouTube 等产品线的落地，是驱动查询量、广告点击率和云订单 backlog 加速的关键因素，AI 已开始实质性转化为收入和利润增长。

从业务结构看，上述各条线的加速并非彼此孤立的单点爆发，而是沿着“入口— IaaS—多端产品协同”的完整链条被系统性放大：Search 和 YouTube 作为超级流量入口，负责聚合用户请求与行为数据；Google Cloud、TPU 等 AI 基础设施层承载大模型训练与推理能力；Workspace、Android、Chrome、Gemini App 等多端产品则将 Gemini 3 的能力沉淀为高频工具和订阅套餐。在这一组合下，搜索流量 +AI 基建+多端产品形成三重防线。

流量护城河：即便在 AI 原生搜索和多入口竞争加剧的背景下，2024 年 Google 在全球搜索市场的份额仍约 90%，对 Bing 等竞争对手保持数量级优势，日均处理数百亿次搜索请求，为 Gemini 3 提供了最稠密的真实交互数据和商业流量。

基础设施护城河：2025 年 Alphabet 将全年资本开支指引抬升至 910–930 亿美元区间，重点投入自研 AI 芯片、数据中心与云基础设施；在 Q3 中， Google Cloud 订单 backlog 同比大幅增长，表明以 Gemini 3 为代表的一站式 AI 基建正在锁定中长期企业需求，“AI 基建—模型—云收入”的飞轮初步成型。

产品与商业模式护城河：Gemini 3 不再只是一个“模型选项”，而是被植入 Search、Chrome、Android、YouTube、Workspace 以及 Gemini App 自身，成为这些入口的默认智能层；在消费侧，它直接提升搜索与 YouTube 广告的相关性和转化率，在供给侧则通过 Google One、Workspace、 Developer API 等订阅和 B2B 方案实现分层收费与 ARPU 提升。整体来看，Gemini 3 带来的模型架构升级与流量入口层的系统重构正在叠加发力：一端通过“慢思考+generative UI”显著提升用户体验和留存率，另一端则在财务报表上体现为搜索、视频广告与云业务的同步加速，使 Google 在新一轮大模型竞争中重新回到进攻一侧。

2.2 OpenAI：从“遥遥领先”到“红色警报”

ChatGPT 通用模型领先优势被 Gemini 3 松动。在 Gemini 3 发布之前，OpenAI 依托 GPT-5.1 维持了在通用大模型赛道的绝对主导：一方面，在多模态理解、代码生成和链式推理等核心能力上，GPT-5.1 相比前代模型有系统性抬升，成为多数开发者和 C 端用户的“默认选择”；另一方面，基于 GPT-5.1 的 ChatGPT 在用户规模、生态完备度上形成显著先发优势。但随着 Gemini 3 上线并在高难度推理评测与交互体验上实现突破，叠加 Google 将 Gemini 深度嵌入 Search 与 Workspace 等高频入口，GPT-5.1 的“指标领先+流量心智”的组合优势开始被明显削弱。量化数据上，Gemini 3 发布后，在部分地区的使用时长和留存等关键指标首次压过 ChatGPT，Gemini 3 发布约两周后，第三方监测口径下 ChatGPT 日活跃用户出现约 6%的阶段性回调。

在 Gemini 3 体系化进攻带来的竞争压力下，OpenAI 的应对路线呈现出典型的 “收缩战线-资源回流-中期版本反击”：内部启动高强度应急机制（业内常称 “Code Red”），阶段性暂停广告等边缘探索及部分智能体平台类非核心投入，把有限算力与研发资源集中到两条主线，其一是修复并强化 ChatGPT 端到端体验的“硬指标”（速度、稳定性、多模态一致性与更贴近用户预期的拒答策略），以稳住存量用户与付费转化；其二是推进下一代推理与代码能力的模型线路迭代（市场信息称“Garlic”方向），在结构性修复基础上做系统工程优化，在相对可控的参数与算力预算下提升知识密度、推理稳定性与工程可用性，并压低单位推理成本。2025 年 12 月 12 日发布的 GPT-5.2 通过 Instant/Thinking/Pro 分层把模型从“能回答”推进到“能交付”，在代码、长链推理、多工具调用与多模态等高频生产力场景提高复杂任务胜率；据专业评审观点，GPT-5.2 Thinking 在 70.9%情况下击败或打平顶级行业专业人士。成本侧，官方口径强调其完成任务速度可达专业人士的 11 倍以上、成本不到 1%，并通过更清晰的 API 定价、缓存输入折扣与推理强度档位，让开发者在质量-时延-费用间可控权衡，同时以更高 token 效率与更大上下文承载减少长任务拼接损耗，实质压低单位智能成本；体验侧则把稳定性与“少拒绝、可执行”作为同等优先级，采取渐进部署持续修复摩擦点，形成“能力兑现+成本下探+体验修复”的版本化反击，为后续更大代际升级争取时间与生态筹码。

2.3 Anthropic：模型+“工程师生产力”的企业路线

截至 2025 年 8 月，Anthropic 年化营收已从年初约 10 亿美元跃升至 50 亿美元以上。2025 年公司完成约 130 亿美元 F 轮融资，投后估值约 1,830 亿美元，并获得 Amazon、Alphabet（Google）等长期战略支持。在商业化渗透上，Menlo Ventures 调研显示 2023 年其企业端 LLM 使用份额已升至约 32%，在企业市场领先 OpenAI 与 Google；同时在编码场景中，Claude 在代码生成用例的份额约 42%，Menlo 也指出 Claude Code 正成为编码类用例中明显领先的产品形态。

Anthropic基于132名工程师的内部调研显示，Claude已经深度嵌入日常开发。工程师自报生产力提升约 50%，角色结构被重塑：前端、后端、研究工程师的边界被打薄，工程师不再只是“亲手敲代码的工匠”，而更像“指挥 AI 施工的总包”— —负责拆需求、定架构、拆任务、做 Code Review 与风险控制，“写代码”在工作中的比重系统性下降。

初级工程师岗位正在被 AI 侵蚀。新人可以直接让 Claude 修 Bug、写脚本，不再经历系统化调试与啃文档的“痛苦积累期”，短期交付更快，却可能牺牲对系统本质的理解深度。未来真正稀缺的，不再是语法熟练度，而是将业务问题抽象为可被 AI 执行与验证的任务链条、为复杂系统设定安全边界与验收标准的能力。对企业而言，这意味着必须同步重构人才体系与工程文化：一方面刻意保留“徒手调试”的训练场景，为新人设计有坡度的学习曲线；另一方面，把“善用 AI 完成复杂系统交付”的能力纳入晋升与考核，让工程师从被动担心“被替代”，转向主动进化为真正的“AI 包工头”。

3 国内路径：算法优化弯道超车，生态演进三线合围

在上述全球趋势下，国内厂商展示出高度差异化的应对路径：一端是以 DeepSeek 为代表，在底层算法和算力密度上“弯道超车”；另一端是以字节豆包、阿里千问、快手可灵为代表，通过 OS 级权限、API 生态和多模态生产工具，直接改造用户触点和生产方式，形成“模型—入口—算力”三线合围的中国样本。

3.1 DeepSeek：开源世界的“奇点”

双版本发布，面向“日用型推理”和“极致型推理”两个方向。DeepSeek 于 2025 年 12 月 1 日正式发布了 DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale 两个版本：前者以平衡推理能力与输出长度为核心设计目标，重点服务于问答和通用 Agent 等高频日常场景，在公开推理类 Benchmark 中整体达到 GPT-5 水平，仅略低于 Gemini-3.0-Pro；相较 Kimi-K2-Thinking，V3.2 在输出长度上显著压缩，有效降低了计算开销与用户等待时延。后者则是在此基础上优化的长思考增强版本，叠加了 DeepSeek-Math-V2 的定理证明能力，主打严谨的数学推理与逻辑验证。其在主流推理基准测试中的表现已可与 Gemini-3.0-Pro 相媲美，并在多个奖项中斩获金牌——其中 ICPC 与 IOI 成绩分别相当于人类选手的第二名与第十名，这一成果标志着开源路线在高难度推理任务上，首次逼近乃至触及人类顶尖选手的能力边界。

在成本端，DeepSeekV3.2 的百万 Token 输出成本仅为 GPT-5 的 1/24、 Gemini 3 Pro 的 1/29。这一巨大差异并非简单压价，而是源自对华为 Ascend （昇腾）芯片及 CANN 软件栈的深度优化，以及对 RL 阶段“Scaling RL with Long Context”的系统工程：通过放宽思维链长度限制，让模型在推理阶段用更长的“内省过程”换取更高的答题质量。相较于前一代模型 DeepSeek-V3.1- Terminus，DeepSeek-V3.2 在长上下文（128K）场景下，成本降低了 75%到 83%左右。DeepSeek 用事实证明，在后训练阶段的算法与工程优化，可以在开源框架下实现“更强的慢思考+更低的算力成本”。

3.2 豆包 AI 手机助手：OS 级智能体的“破壁行动”

豆包 AI 助手绕过 App 围墙直达 OS 底层。豆包与终端厂商（中兴）结盟，打造搭载“豆包手机助手”的工程机 nubia M153，2025 年 12 月 1 日上线。该机型展示了系统级最高权限下的 Agent 能力——通过屏幕视觉识别（OCR）与模拟触控，智能体可以跨越 App 沙箱边界，在真实终端上完成复杂任务链。例如，在“一句指令”场景下，用户说出“比价肯德基原味鸡”，Agent 会自动依次打开淘宝、京东、美团三个 App，检索价格与活动信息并生成可读的比价报告；在生活服务场景中，Agent 可以自动刷小红书做旅游攻略，整理结果后直接跳转微信发送给指定联系人。配合实体“AI 按键”与“屏幕语境感知”（Screen Awareness）能力，豆包可以在微信聊天界面一键读取并修改图片，消除“截图－跳转－处理－返回” 的繁琐路径。

竞争焦点进入“掌握系统级控制权和流量入口”的深水区。近期微信及多家银行 App 对豆包触发风控、强制弹窗提示“关闭 AI 手机助手后再使用”，以及“登录环境异常”导致强制下线的案例，本质上是一场围绕系统级权限与入口主导权的试探性冲突：一旦用户习惯把“打开哪个 App、怎么完成整条任务链”全部交给 OS 级智能体代理，App 自身的首屏入口、广告位和推荐流量就有可能被彻底“管道化”，原有基于 App 流量分发的商业模式会被重写。对终端厂商和大模型提供方而言，豆包路径证明了“AI+OS 联盟”有机会把入口主导权从应用层收回到系统层；但对微信、银行等关键 App 来说，这意味着在隐私合规、风控责任和商业利益三重压力下，必须重新定义“允许 AI 在多大程度上替用户操作”。从行业演化视角看，豆包手机助手是手机智能体时代的第一次大规模博弈预演：手机仍是AI 时代的终极战场，只是战场的核心不再是谁卖出更多的硬件或装机更多的 App，而是谁能在“系统级权限+智能体编排+合规边界”之间率先跑通一套可持续的入口新秩序。

3.3 阿里巴巴（千问）：生态帝国的“服务原子化”与调度中枢

围绕阿里生态，构建服务原子化系统。阿里千问 App 于 11 月 17 日上线公测，首周下载量突破 1000 万次，目前，千问已经在电商与办公等高频场景跑通一批可验证功能：一是支持长文档处理与知识工作流，如将 PDF 与 Office 文档一键生成脑图、摘要或可编辑 PPT，并保持原有排版与图表结构；二是提供语音与音频理解能力，可将手机录音直接转为结构化要点；三是依托视觉识别与阿里电商生态联动，用户上传商品或明星服饰图片后，千问可识别款式信息并给出淘宝、 1688、闲鱼等电商平台的商品链接，完成从“看图”到“下单”的闭环；四是围绕学习、办公、投资等场景提供多轮问答与策略建议，初步具备“对话＋办事”的双重属性。在此基础上，千问的中长期路线指向“服务原子化”与“API 级一体化”的调度中枢。与豆包更偏向通过 OS 层“模拟点击”实现跨 App 操作不同，千问的目标是走“强生态＋强 API”的高内聚闭环路径，以服务原子化和统一调度为核心，在阿里系内部构建执行稳定、响应快速的 AI 行动系统。

3.4 快手可灵 AI：多模态生成、“通感”演进与内容生产“车间化”

2025 年 12 月 1 日至 12 月 5 日，可灵通过一周连续上新，完成了从底层模型到创作工具链的一次系统升级。一方面，可灵视频/图像 O1 作为统一多模态创作工具正式全量上线，在同一生成式底座上打通文生视频、图生视频、参考视频生成、局部编辑、镜头延展与风格重绘等多种任务，用户可以在一个输入框内用文字、图片、视频、主体等多模态指令直接驱动创作，实现从灵感到成片的一站式闭环，并通过多视角主体验证与多图参考能力显著改善角色和场景的一致性问题。与此同时，图像 O1 支持最多约 10 张参考图融合生成，从基础出图到高阶细节编辑全链路贯通，使得“一个世界观、一套角色体系”的视觉资产可以在短剧、广告、账号矩阵等场景中复用。

可灵视频生成 2.6 模型与数字人 2.0 则进一步补齐了“通感”与执行端能力。2.6 模型首次在主流消费级产品中提供端到端“音画同出”，在一次生成中同步产出画面、自然语音、动作音效与环境音，重构了过去“先出静音画面、再人工配音” 的工作流，大幅提升赛事解说、多角色对白、音乐表演等场景下的创作效率与沉浸感；数字人 2.0 通过“上传角色图—添加配音—描述表演”三步即可生成时长可达数分钟、口型和手势高度匹配的虚拟主播/讲解员，适配直播、电商带货、课程讲解等长内容场景。综合来看，可灵正在把内容生产从“剪辑软件+手工调色” 的手工车间，升级为“自然语言+素材资产+统一大模型”的 AI 车间：创作者的角色从具体操作工转向任务设计者与质量验收者，与 Anthropic 在软件工程领域观察到的变革高度同构，内容生产方式的深度重构已经进入可规模复制的产业化阶段。快手可灵 AI 多模态生成，“通感”进化与内容生产重构。

4 从模型竞赛到系统重构，从生成内容到驱动行动

当前 AI 产业主线正从“模型能力竞赛”进入到“系统重构”阶段，竞争焦点已从单一指标上的领先，迁移到能否真正直达用户、实质性改造行为与生产方式。整体来看，可以将这条主线概括为“三步走”：第一阶段是大模型参数与基准测试驱动的“模型能力”比拼；第二阶段是围绕 OS、搜索、超级 App 等高频入口的“入口形态”争夺；第三阶段则是以 AI 助手、智能体为代表的“行动与生产重构”，将模型能力嵌入具体任务链条与业务流程，在真实场景中形成可验证的效率与收益改进。

从技术演进维度看，大模型并未走到 Scaling 的终点，海外头部厂商仍在“放大全球脑容量”。大模型的 Scaling 远未到“天花板”，只是从单一的预训练 Scaling Law，逐步扩展为“预训练–后训练–推理时”的三阶段放大过程：在 Base Model 侧继续沿 FLOPs 提升推动通用智能水平上升；在 SFT/RL 等后训练阶段，通过更精细的指令对齐与偏好优化，把原有能力进一步“压榨出来”；在推理阶段，则利用更长上下文、更深链式思维和 Test-Time Scaling，将一次调用中的“有效算力”拉满。对应地，海外头部厂商仍在持续“放大全球脑容量”，围绕自反思、自验证、工具调用、稀疏 MoE 等新范式提升单位算力的有效智能密度；而在算力、资金和场景土壤约束更强的国内，厂商则走向更偏“实用主义”的路线：通过开源与小模型降低门槛，在代码、搜索、办公等细分任务上做深做窄、强化性价比，实现从“卷规模”向“卷效率”“卷落地”的转向。

从应用维度看，AI 应用的价值中枢，正从“生成内容有多好看”迁移到“能否嵌入 OS、搜索与超级 App，承接完整任务链”。海外大厂的逻辑是“模型+全栈入口”的系统级整合：Google 将 Gemini 深度绑定 Gmail、YouTube、 Chrome 与 Cloud，让 AI 直接嵌入浏览、办公与内容消费全流程；微软通过 Windows/Office/Teams 体系推动 Copilot 成为通用工作入口。国内厂商则更多围绕本地高频场景展开：阿里依托电商、支付、云与协同办公多入口，将通义千问封装为跨场景 AI 助手；字节、快手等平台把大模型与内容生产、短视频分发、本地生活深度耦合，形成围绕高频场景的产品化矩阵。进一步看，AI 正在加速推动软件开发、内容生产、客服与运营等多条生产线的分工重构。以快手和阿里为例，快手依托短视频与直播生态推出“可灵”，显著提升内容创作与审核效率；阿里在电商、广告、客服与商家运营全链条嵌入千问，把模型能力沉到底层业务系统，将流量与场景优势转化为组织效率与竞争壁垒。对于这些大厂而言，AI 不再只是新产品，而是对存量生态的系统性“加杠杆”，在业务增长和用户粘性上形成双重放大效应。

在上述格局之下，投资视角也需要从“有没有大模型”“有没有 Agent 产品”这类标签化判断，转向对核心能力的结构化审视。一方面，要看其是否具备可持续提升 “慢思考”和思考链能力的技术路径，包括但不限于 RL 强化学习、自我反思与自验证机制、长上下文、多工具协同与稀疏 MoE 架构等，是否能够在有限算力约束下持续提升“单位智能产出”；另一方面，要评估其在 OS、搜索、浏览器、超级 App 或行业操作系统等高频入口上的掌控力，能否真正将模型能力嵌入用户日常工作与生活的关键节点；同时，还需观察其在研发、运营、营销、内容生产等具体生产环节中，是否已经形成“AI 介入—效率提升/收入改善—数据与资金回流”的正反馈闭环。综合来看，在“海外 vs 国内”“模型厂商 vs 大厂”这两个维度交织的竞争格局中，那些既具备算法与工程深度，又掌握高频入口与真实业务场景，并已经在生产方式重构中跑通闭环的厂商，有望在下一阶段 AI 演化中获得更高的估值弹性与业绩兑现度。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）