海内外大模型产业进展如何?

海内外大模型产业进展如何?

最佳答案 匿名用户编辑于2025/02/28 11:25

海内外大模型竞争加剧,ChatGPT o3 和 Gemini 2.0 系列重磅发布。

OpenAI发布会2024年底重磅来袭,连续12个工作日发布多个新产品。2024年12月5日, OpenAI宣布从2024年12月5日太平洋时间早上10点(即北京时间2024年12月6日凌晨2 点)起,连续12个工作日都将发布新产品。此次发布会的新产品包括最新的o3大模型、 o1大模型的正式版、Sora正式版等重磅产品以及和苹果在端侧的深度融合。

o1正式版较此前发布的o1 preview版本有明显进步。o1正式版在国际数学奥林匹克 预选赛题目(AIME 2024)、编程能力测试(CodeForces)方面较o1 preview版本均有 约50%的大幅提升。

o3在多个领域的测试结果显著超过o1,ARC-AGI测试的准确率高达87.5%。o3距离o1的 preview版本仅3个月左右的时间,但在编码、数学以及ARC-AGI基准测试等多个基准 测试结果上大幅超过了o1模型,其中,o3的Codeforces评分高达2727,相当于在全球 人类程序员编码竞赛中排名第175位,超过了99%的人类程序员,较o1提升了800多分; 在AIME 2024数学竞赛评测中,o3取得了96.7%的准确率,性能提升了13.4%;在博士 水平的科学问题(GPQA)准确率达到87.7%,远超博士生的一般准确率70%;在最难的 前沿数学测试准确率达到25.2%,此前的其他模型准确率未超过2%;在证明是否达到 AGI的题目ARC-AGI中准确率达到87.5%,此前o1的准确率仅25%。

Google发布Gemini 2.0,海外头部大模型厂商竞争进入白热化阶段。在OpenAI发布 会尚未结束之时,2024年12月11日,Google发布了Gemini 2.0系列中的Gemini 2.0 Flash版本。Flash版本在Gemini 模型系列中,是除去专为端侧开发的Nano版本外, 参数最小的模型。Gemini 2.0的Flash版本在速度翻倍的同时,性能还超越了参数量 级更大的Gemini 1.5 Pro版本,并在大模型排行榜中超越了ChatGPT-4o和o1 Preview。 紧接着12月20日,Google又发布了Gemini 2.0 Flash Thinking,Gemini 2.0 Flash Thinking 则是基于 Gemini 2.0 Flash版本上更加侧重推理性能的版本,经过专门 训练后可使用思维(thoughts)来增强其推理能力,还会明确展示其思考过程,发布 后很快就登顶了Chatbot Arena排行榜第2。OpenAI o1正式版和o3 preview版本的发 布,以及Google Gemini2.0系列的发布,彰显海外两个头部大模型厂商的竞争已经进 入白热化阶段。

国内大模型厂商加速追赶,综合性能持续提升。根据SuperCLUE报告,2024年国内大 模型厂商发布多款推理模型,如QWQ、K0math、DeepSeek-R1-Lite、InternThinker、 360gpt2-o1、GLM-Zero等。同时,国内以豆包为代表的多款大模型综合性能也持续提 升,加速追赶海外头部大模型的性能水平。

豆包大模型家族全新升级,日均tokens使用量增长超过33倍。在2024火山引擎FORCE 原动力大会·冬上,火山引擎发布了全新升级的豆包大模型家族。根据大会介绍,豆 包大模型2024年12月的日均tokens使用量超过4万亿,较2024年5月发布时期约1200亿 的日均tokens使用量增长超过33倍。

豆包大模型tokens的调用实现规模化增长。豆包大模型在多个场景中的tokens调用 量都在快速增长,带动着豆包大模型tokens调用的整体规模化增长。

火山引擎发布、升级多个大模型产品,豆包大模型家族成员愈发丰富。火山引擎推出 了豆包·视觉理解模型,通过豆包·视觉理解模型,用户可以同时输入文本和图像相 关的问题,模型能够综合理解并给出准确的回答,这将极大地简化应用的开发流程, 解锁更多的大模型价值场景。豆包·视觉理解模型拥有更强的内容识别能力、更强的 理解和推理能力以及更细腻的视觉描述能力,在教育、旅游、电商等场景有着非常广 泛的应用。此外,豆包通用模型pro也完成了新版本的迭代,综合任务处理能力较5月 份提升32%,在推理上提升13%,在指令遵循上提升9%,在代码上提升58%,在数学上 提升43%,在专业知识领域能力提升54%。

豆包·视觉理解模型价格显著低于行业水平,大大降低了用户的使用成本。豆包·视 觉理解模型的输入价格为每千tokens0.003元,比行业平均价格降低85%,相当于一块 钱可以处理284张720P的图片, 代表着视觉理解模型正式走进厘时代。此外,火山引 擎还将提供更高的初始流量,RPM达到了15,000次,TPM达到120万,让企业和开发者 用好视觉理解模型,找到更多创新场景,大大降低了用户的使用成本。

支持性政策出台,有望进一步降低大模型的训练和使用成本。12月18日,深圳市工业 和信息化局印发《深圳市打造人工智能先锋城市的若干措施》,《措施》主要从丰富生 态要素供给、深化人工智能赋能千行百业、提升源头创新能力和优化产业发展环境四 个方面推动建设国家新一代人工智能创新发展试验区和国家人工智能创新应用先导 区,打造人工智能先锋城市。值得注意的是,多项措施在降成本有着明显的创新,如 发放“训力券”、“语料券”、“模型券”等。若该类政策拓展至全国,有望大幅降低企 业训练AI大模型以及购买模型服务、智能体开发应用的成本,有利于推动先进算力基 础设施建设,也激励企业开展模型应用和数字化智能化转型。

参考报告

2025年计算机行业投资策略报告:披荆斩棘,硕果累累.pdf

2025年计算机行业投资策略报告:披荆斩棘,硕果累累。回顾2024年,SW计算机行业指数年涨跌幅跑输沪深300和创业板指,在31个申万一级行业中排名第14,表现一般。我国加大力度化解地方债务问题,有望缓解计算机行业应收压力,提升重点领域的资金预算。展望2025年,综合数字经济产业的发展情况以及我国三中全会、中央经济工作会议“实现高水平科技自立自强”的政策要求,继续聚焦信创、数字化和智能化三大投资主线。1)信创主线:主要关注中央集中采购需求以及中央处理器(CPU)、操作系统和数据库等信创产品的供给情况。2)数字化主线:主要关注数据产业中数据基础设施、数据要素资源的开发利用...

查看详情
相关报告
我来回答