持续迭代参与竞争, 阿里通义性能比肩 DeepSeek。
1.阿里巴巴: 基座模型、深度推理模型进展稳居第一 梯队
阿里旗下最新旗舰模型 Qwen2.5-Max 在指令模型、基座模型的指标对比中,均 已能赶超业界领先的模型。阿里通义于 25 年 1 月发布最新 Qwen2.5-Max 模型, 其为通义千问系列效果最好的模型。 根据通义千问披露:1)指令模型(即我们平常使用的可以直接对话的模型)对 比,在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基 准测试中,Qwen2.5-Max 的表现超越 DeepSeek-V3。同时在 MMLU-Pro 等其 他评估中也展现出具备竞争力的成绩。 2)基座模型对比中,Qwen2.5-Max 在 MMLU(大规模多任务语言理解)、MATH、 BBH 等多项测试中均展现出相对上一代 Qwen2.5-72B 的大幅提升,以及相对 DeepSeek-V3 的超越。 3)尽管并未进一步披露在算法技术、工程上的具体细节,但 Qwen2.5-Max 同 样为超大规模的 MoE 模型,使用超过 20 万亿 token 的预训练数据及精心设计 的后训练方案进行训练。Qwen2.5-Max 和 DeepSeek-V3 同样实现 AI 业界对训 练超大规模 MoE 模型的突破。

Qwen2.5-Max 代码编写等各项能力、实际应用体验均得到提升,已在 Qwen Chat 中上线,整体接入阿里云服务 API。1)Qwen2.5-Max 的代码编写与理解 能力、逻辑能力、多语言能力显著提升,回复风格面向人类偏好进行大幅调整, 模型回复详实程度和格式清晰度明显改善,内容创作、JSON 格式遵循、角色扮 演能力定向提升。2)Qwen2.5-Max 具备联网搜索功能,输出的每句话来源出 处都有标注,整体运行也很丝滑。代码能力上,Qwen2.5-Max 能够帮助用户完 成各种可视化创作,一句话生成代码及建模;也有 Artifacts 功能,一句话能开 发各种小应用、小游戏。
阿里旗下最新实验性研究推理模型在数学和编程等领域已取得显著进步,期待 Qwen2.5-Max 新模型赋能、DeepSeek-R1 开源后的技术启示,QwQ-32B 正式 版带来突破。阿里通义于 24 年 11 月发布 QwQ-32B-Preview 实验性研究模型, 专注于增强 AI 推理能力。 作 为 预 览 版 本 , 根 据 通 义 千 问 披 露 : 1 ) QwQ-32B-Preview 和 OpenAI-o1-preview 和 OpenAI-o1-mini 在 GPQA(科学推理)、AIME、 MATH-500(数学)以及 LiveCodeBench(代码)四个数据集中各有胜负,但 整体水平比较接近。而相比 GPT-4o、Claude 3.5 Sonnet 和 Qwen2.5,具备比 较明显的领先优势。
2)作为预览版本,QwQ-32B-Preview 仍存在语言切换问题、推理循环、安全 性考虑和能力差异等问题。而 DeepSeek-R1 已解决部分此局限性,其多方面能 力超过 OpenAI-o1-mini,在奖励函数设计中,重点对语言一致性进行的要求。 DeepSeek-R1 的模型训练思路有望成为 QwQ-32B 的借鉴,同时在 25 年 2 月发 布的更强大的 Qwen2.5-Max 则有望成为 QwQ-32B 训练的基石。
阿里通义同样是模型开源的支持和践行者,其在开源大模型中性能和开发者参与 度均居领先位置。1)Qwen 系列模型中,除了旗舰模型闭源商用外,其余所有 模型都在走开源路线。截至 2025 年 2 月 9 日,Chatbot Arena 排名中, Qwen2.5-72B-Instruct 居第三位,优于 Llama-3.3-70B-Instruct。 2)Qwen 系列的特点是开源模型提供全尺寸开源模型。和 DeepSeek-V3/R1 开 源的 671B 超大模型不同,Qwen 开源模型参数量覆盖小到手机也能运行的 1.5B,大到 110B,基本上能覆盖开源社区的绝大多数需求,因而在全球开源社 区中影响力很大,AI 业界非常多的研究工作都是以 Qwen 为基础模型开展的。 25 年 2 月 10 日,全球最大 AI 开源社区 Huggingface 发布了最新的开源大模型 榜单,其中排名前十的开源大模型,都为基于阿里通义千问开源模型二次训练的 衍生模型。DeepSeek-R1 基于 Qwen 2.5 模型(参数个数 1.5B 到 32B)蒸馏多 个小模型,提供更具效率的版本,并做案例探索研究。
2. 腾讯: 基座模型采取跟随战略稳健追赶,组织架构 调整聚焦应用结合
腾讯在 AI 大模型中的团队布局较为分散,持续关注人员、资源配置重点。包括: 1)混元大模型团队,旗下产品包括 23 年 9 月正式上线的混元系列大模型,及 基于混元大模型及搜索引擎驱动的 AI 智能助手“元宝”和 AI 智能体开放平台“元 器”。 2)腾讯 AI Lab 团队,早在 16 年 4 月成立,其基础研究方向包括计算机视觉、 语音技术、自然语言处理和机器学习,应用探索结合了腾讯场景与业务优势,聚 焦于游戏、数字人、内容和社交 AI 四类。 3)腾讯云 AI 团队,23 年 6 月早于混元发布行业大模型,并发布面向 B 端客户 的腾讯云 MaaS 服务解决方案,腾讯云板块基础设施持续支持腾讯内部模型研发 和应用探索。 4)其他应用团队,腾讯内每个事业群内均在探索大模型的产品化落地场景,包 括微信、QQ、输入法、浏览器等产品都将推出 AI 智能体,游戏、微信读书、腾 讯视频等产品也将基于混元做更多 AI 探索。以微信 AI 团队为例,24M1 微信公 开课 PRO 分享微信对话开放平台的更新,其能够帮助开发者和商家快速搭建一 个零成本、低门槛,满足自身业务需要的对话机器人。
组织架构调整,元宝并入 CSIG,或彰显腾讯 AI 战略更加清晰,从技术到重视产 品体验,从“后手入场”到全面探索 AI 应用的转变。25 年初,腾讯 AI 助手应 用“元宝”完成组织调整,产品团队从 TEG 事业群(技术工程事业群)调整至 CSIG(云与智慧产业事业群)。调整后,“元宝”应用将交由腾讯会议负责人 吴祖榕负责,主要负责元宝的产品能力建设和体验优化。 我们认为:1)元宝从技术部门的剥离或显示出腾讯 AI 战略从技术到重视产品体 验的转变。吴祖榕是一个具有丰富 ToB 经验且能兼顾 C 端产品体验的负责人, 元宝有望复制腾讯会议经验,以 C 端体验为入口,连接和服务企业客户,进而 探索 AI 商业化。腾讯会议基于混元大模型已经推出智能录制、智能生成摘要总 结、腾讯会议 AI 助手等功能。 2)元宝 App 等腾讯 AI 产品 24 年整体进展相对保守,后续或有望在 AI 产品化 方面转向积极。腾讯公司一贯更注重长期维持优质的产品设计和用户体验,通常 谨慎对待新技术新概念融入自身产品矩阵和社交体系,在元宝 App 的推广方面 较为保守。根据 Questmobile 数据,24 年 12 月腾讯元宝 App MAU 211 万,明 显低于字节豆包 App、百度文小言 App 等。根据第一财经等媒体报道,25 年 1 月腾讯集团年会中,董事会主席兼 CEO 马化腾表示,期望做腾讯混元的端到端 语音交互落地。TEG 进行架构调整,将更聚焦做技术底座,产品化则希望其他事业群一起推进。腾讯混元已经在跟腾讯会议、输入法、浏览器等结合,微信、 QQ 都在推进智能体落地了,游戏也要全方位拥抱 AI。
基础大模型方面,腾讯混元最新开源 Hunyuan-Large 模型,模型效果整体赶超 Llama3.1-405B 及 DeepSeek-V2.5。根据混元披露:1)腾讯混元 24 年 11 月 发布的 Hunyuan-Large(Hunyuan-MoE-A52B)模型,是当时业界已经开源的 基于 Transformer 的最大 MoE 模型,拥有 389B 总参数和 52B 激活参数(对比 DeepSeek-V3 总参数量 671B,每个 Token 激活的参数量为 37B)。2) Hunyuan-Large 在 CMMLU、MMLU、CEval、MATH 等多学科综合评测集以及 中英文 NLP 任务、代码和数学等维度取得理想成绩,在 MMLU、MATH、 HumanEval 超 越 Llama3.1-405B 及 DeepSeek-V2.5 , 在 ARC-C 、 GPQA_diamond 不如 Llama3.1-405B,BBH、HellaSwag 不如 DeepSeek-V2.5, 整体成绩略好于这两个当时领先的开源模型。
腾讯混元在多模态方面具有较广布局和较多进展,探索 3D 生成、文生视频等领 域,为内部赋能和行业进步打下基础。 1)25 年 1 月,腾讯开源 3D 生成大模型 2.0 升级版本,上线业界首个一站式 3D 内容 AI 创作平台——混元 3D AI 创作引擎。作为创作者,可以用它输入文字、图片一键生成高质量 3D 模型,并包含 3D 功能矩阵、3D 编辑、3D 生成工作流、 创作素材库等多种功能。作为游戏开发、动画制作等领域专业创作者,还支持快 速搭建 3D 生成工作流。
混元 3D AI 模型 2.0 版本再升级,通过几何、纹理解耦生成,几何结构更精细, 纹理色彩更丰富。几何模型实现超高精度白模生成,媲美设计师手工建模水平。 纹理模型则能对任意几何模型生成逼真纹理,支持文本/图像引导。
2)24 年 12 月,腾讯宣布旗下混元视频生成大模型(HunYuan-Video)开源, 模型参数量 130 亿。该模型可供企业与个人开发者免费使用,目前已上线腾讯 元宝 APP。HunYuan-Video 在文生视频多个方面都具有较高的质量,拥有包括 超写实画质、原生镜头切换、高语义一致等特点。
3. 百度:文心最早上线经多次迭代,期待 25 年下一代 模型能力提升
百度自率先发布国产大模型文心以来,推出多次大模型迭代及相关产品发布,期 待 25 年文心新版本面世。24 年 6 月,百度发布文心大模型 4.0 Turbo,大幅强 化检索能力以改善幻觉问题,全网搜索、分析资料、等待大模型回复的速度得到 明显提升。24 年 11 月,百度集团 CEO 李彦宏称文心的新版本面世,或在 25 年年初。 百度通过两大关键产品:大模型精调和应用开发平台的千帆,以及提供稳定高效 算力服务的百舸平台,为企业提供全栈服务解决方案。1)百舸:以 GPU 为核 心搭建的异构计算平台,适合多模态大模型训练。百舸平台支持同一智算集群中 混合使用不同厂商芯片,降低算力成本的同时,多芯混合训练任务的性能损失, 控制在了万卡性能损失 5%,已经是业界最高水平。2)千帆:主打低门槛的模 型平台,凭借模型开发层、模型服务层和应用开发层三层架构,满足多样化的现 实需求。在模型开发层,千帆提供全流程工具;在模型服务层,可直接调用多模 态能力;在应用开发层,千帆帮助企业用多模态能力改造业务。

4. 快手: 可灵模型专注文生视频领域居业界领先
快手旗下文生视频生成模型可灵始终处于全球业界领先水平,最新基座版本更新 后,带来显著画面表现力提升,并获得专家评测榜单好评。 1)可灵在上线半年多的时间保持积极的前沿探索和模型更新,维持全球视频生 成领域领先水平。可灵 24 年 6 月正式发布并上线,作为全球首个可公开体验的真实影像级视频生成大模型,截至 25 年 1 月,可灵已完成数十次功能与效果的 升级迭代,同时陆续推出多项丰富且实用的控制与编辑功能。 2)可灵 1.6 视频生成模型文本响应度、画面美感及运动合理性,均有明显提升, 图生视频更新效果提升明显。24 年 12 月,可灵 AI 宣布基座模型再升级,同时 支持标准和高品质模式,特别是 1.6 模型的图生视频,内部评测比 1.5 模型整 体效果提升 195%,模型物理规律真实感、语义理解得到提升,人物运动表演更 强。
3)可灵文生视频模型在 AGI-Eval 榜单评测中居前列,超过 OpenAI 的 Sora 模 型,得分接近国产 Pixverse-V3 模型。AGI-Eval 通过构建上百条评测数据和专家 级人工评测团队,对 Sora 、及国产头部视频生成模型进行专业评测。可灵 1.5 的文生视频模型在 24 年 12 月的最新测评中拿到 0.573 分,拿到第二名,高于 OpenAI 的 Sora-720p 和 Sora-1080p,仅略低于 Pixverse-V3 的 0.5732 分。 具体评价上看,与国内头部大模型(国内前三)相比,Sora 在视频-文本一致性 维度、视频质量上均有小幅落后。Sora 在运动质量维度表现略好于可灵 1.6,即 生成的视频画面在动态过程中的主体一致性和动态幅度更自然。在视频-文本一 致性维度上,Sora 存在文本理解有误、指令遵循不符的问题,即生成的视频内 容与提示词的描述不符的现象。