OpenAI o3与o4-mini核心看点在哪?

OpenAI o3与o4-mini核心看点在哪?

最佳答案 匿名用户编辑于2025/06/19 08:55

全新推理模型 OpenAI o3 与 o4-mini 拥有强大的任务处理 能力和高效的工具运用能力,为复杂任务的解决奠定了基础。

OpenAI o3 是一款在编码、数学、科学和视觉感知领域具备显著能力的推理模型。 该模型在 Codeforces、SWE-bench(无需构建特定于模型的自定义支架)和 MMMU 等基准测试中建立了新的最先进(SOTA)性能。其适用于需要多方面分析且答案 并非直接显见的复杂查询,在涉及图像、图表和图形分析的视觉任务中表现显著。 外部专家评估表明,在具有挑战性的现实任务中,o3 相比 o1 的重大错误率降低 20%,在编程、商业/咨询和创意构思领域性能提升显著。早期测试者强调了其作 为“思维伙伴”的分析严谨性,尤其在生物学、数学和工程领域生成并批判性评 估新假设的能力。 在开发过程中,o3 在大规模强化学习(RL)中展现出与 GPT 系列预训练阶段类 似的“计算-性能”趋势。通过将强化学习训练计算量和推理时间提升一个数量级, 模型实现了持续的性能提升,验证了推理时长与模型性能的正相关性。在与 o1 相 同的延迟和成本条件下,o3 在 OpenAI 部署中表现出更高性能,且经证实,随着 推理时间增加,其性能会进一步提升。

该模型通过强化学习训练实现工具使用能力,包括工具操作知识和工具使用时机 的上下文推理。这一能力提升了其在开放式场景中的表现,尤其是在涉及视觉推 理和多步骤工作流程的任务中。早期测试者报告显示,在学术基准测试和实际任 务执行中,o3 均通过工具使用能力的改进实现了结果提升。 o4-mini 作为轻量化模型,聚焦快速且经济高效的推理性能优化。在同等规模与成 本条件下,其于数学运算、编码任务及视觉处理等领域展现出卓越性能表现,尤 为突出的是,该模型在 AIME 2024 和 2025 基准测试中均位列榜首。值得关注的 是,尽管借助计算机辅助能够降低 AIME 考试难度,但实测数据显示,当配备 Python 解释器时,o4-mini 在 AIME 2025 测试中实现了 99.5%的通过率,充分印 证了 o4-mini 对外部工具的高效调用与协同能力;与之类似,o3 在 AIME 2025 测 试中通过工具运用,也取得了 98.4%的通过率与 100%的共识率,展现出工具赋能 对模型性能提升的显著作用。 相较于前代 o3-mini,o4-mini 在非 STEM 领域任务处理及数据科学应用中均实现 性能超越。凭借其高效推理特性,o4-mini 在使用限制上显著优于 o3,能够为大规 模、高并发的推理任务提供强大支撑,成为高容量、高吞吐量场景下的理想解决 方案。外部专家评估指出,o4-mini 与 o3 通过智能化升级和网络资源整合,在指 令遵循能力上较前代模型实现显著提升,输出响应兼具实用性与可验证性。同时, 二者在对话交互层面进行深度优化,通过对历史记忆与对话内容的有效调用,使 输出结果更具个性化与场景适配性,显著增强交互自然度与连贯性。 在 AIME 2024 和 2025 数学竞赛测试里,o4-mini 即便无工具辅助,准确率也高于 o1 和 o3-mini,且 o3、o4-mini 在有工具时准确率进一步提升,工具对模型解题能 力有促进作用;在 Codeforces 编程竞赛测试中,o3 和 o4-mini 使用终端工具后 ELO 得分大幅领先 o1,在编程任务借助工具能力可显著提升。

GPQA Diamond 测试中,o3(无工具)准确率最高,o4-mini(无工具)次之,o1 和 o3-mini 稍低;而 Humanity’s Last Exam 测试里中,o4- mini(有工具)准确率 领先,o3(有工具)次之。不同模型在科研及综合专业问答任务中各有优劣,进 一步体现 o3 及 o4-mini 模型借助工具可提升性能。总体而言,o4-mini 和 o3 在多 测试场景展现出较好潜力,工具使用对模型的编码性能提升有重要意义。

在编码领域,o3 与 o4-mini 通过实际任务完成情况彰显其能力。在 SWE-Lancer 自 由编码任务中,o3-high 和 o4-mini-high 脱颖而出。o3-high 赚取金额高达$65,250, o4-mini-high 也有$56,375 的收入,与 o1-high 的$28,500 和 o3-mini-high 的$17,375 形成鲜明对比。这一数据直观地表明,o3 和 o4-mini 在实际编码工作的创收能力 上优势显著,意味着它们能够更为高效且优质地处理编码任务,为实际项目带来 更高价值。而在 SWE-Bench Verified 软件工程测试中,二者的准确率同样令人瞩 目。o3 以 69.1%的准确率领先,o4-mini 也达到了 68.1%,远超 o1 的 48.9%和 o3- mini 的 49.3%。进一步证实,在软件工程相关的编码任务中,o3 和 o4-mini 能够 精准地完成任务,展现卓越的编码能力。

遵循指令能力是衡量模型能否准确执行复杂任务的重要指标。在 Scale MultiChallenge 多轮指令遵循测试中,o3 展现出独特优势。其 56.5%的准确率高于 o1 的 44.9%、o3- mini 的 39.9%以及 o4-mini 的 43%。o3 在面对多轮指令时,能够 更好地理解并按照指令要求执行任务,在需要精确遵循指令步骤的场景中,更具 可靠性。

代理工具使用能力对于模型处理复杂任务至关重要。在视觉推理任务方面,无论 是 MathVista 视觉数学推理测试,还是 CharXiv-Reasoning 科学图形推理测试,o3 和 o4-mini 均表现出色。在 MathVista 测试中,o3 准确率为 86.8%,o4-mini 为 84.3%,远高于 o1 的 71.8%;在 CharXiv-Reasoning 测试里,o3 准确率 78.6%,o4- mini 为 72.0%,同样高于 o1 的 55.1%。这充分说明,在处理涉及视觉信息理解与 推理的任务时,o3 和 o4-mini 能够有效借助工具,完成复杂的视觉任务。在 BrowseComp 代理浏览测试中,o3 和 o4-mini 结合工具后的表现更是令人惊叹。 o3 结合 python 和浏览工具时准确率为 49.7%,o4-mini 在 Deep research 下结合相 关工具准确率达 51.5%,与 o1 结合浏览工具仅 1.9%的准确率形成巨大反差。这 表明 o3 和 o4-mini 在代理浏览任务中,对工具的运用能力远超其他模型,能够通 过工具获取和处理信息,提升任务完成质量。此外,在 Tau-bench 函数调用测试 中,在航空和零售等不同行业场景里,o3-high 和 o4-mini-high 也展现出较高的准 确率。如零售场景中,o3-high 达到 73.9%,o4-mini-high 为 71.8%,说明它们在涉 及函数调用这类工具使用任务时,能够准确运用工具实现功能,满足不同行业的 任务需求。

o3 和 o4-mini 在编码、遵循指令以及代理工具使用等多个关键领域,相较于其他 模型展现出明显优势。它们凭借强大的任务处理能力和高效的工具运用能力,为 人工智能在实际应用中的发展提供了有力支持,也为未来更多复杂任务的解决奠 定了坚实基础。

OpenAI o3 和 o4-mini 作为 o 系列最新的推理模型,在视觉信息处理方面,首次 达成将图像直接融入思维链进行思考。开创了视觉与文本推理融合的全新问题解 决范式。 从图像输入适应性来看,用户可上传白板照片、教科书图表、手绘草图等各类图 像。即便图像存在模糊、反转或质量欠佳等状况,模型仍具备解读能力。在工具 辅助下,模型能够对图像进行动态操作,涵盖旋转、缩放、变换等处理,极大拓 展了图像分析的灵活性与深度。在视觉感知任务中,o3 和 o4-mini 可达到顶尖准 确率,成功攻克诸多此前难以解决的问题。 与 OpenAI o1 相似,o3 和 o4-mini 经训练具备在回答前进行深度思考的能力,运 用较长的内部思维链推导答案。在此基础上,o3 和 o4-mini 进一步升级,将图像 纳入思维链体系。模型可通过工具对用户上传图像进行转换,实现裁剪、放大、 旋转等基础图像处理操作,且这些功能内置于模型,无需借助独立专用模型,确 保了视觉推理的连贯性与高效性。 借助 o3 和 o4-mini 可实现视觉智能增强,能够以更全面、准确、可靠的方式剖析 图像,助力用户应对复杂难题。该能力可将高级推理与网页搜索、图像处理(包 括自动缩放、裁剪、翻转、增强图像等)等工具无缝集成,即便面对低质量照片, 也能有效提取关键信息。如用户上传经济学习题集照片可获取详细步骤讲解,分 享构建错误的屏幕截图能快速得到根本原因分析。这种融合方式为测试时间计算 扩展提供了新维度,实现视觉与文本推理的自然融合,在多模式基准测试中呈现 出领先性能,是迈向多模式推理的关键进展。 在用户交互层面,o3 和 o4-mini 基于图像思考的特性,显著优化了与 ChatGPT 的 交互体验。用户通过拍照提问时,无需顾虑物体位置、图像文字颠倒或存在多个 问题等情况。视觉推理功能支持模型自动放大查看图像细节,精准捕捉关键信息。 此外,这两款最新视觉推理模型可与 Python 数据分析、网络搜索、图像生成等工 具协同运作,以创新且高效的方式处理复杂问题,为用户带来 OpenAI 首个多模 式代理体验,在科研、教育、工程等多领域具有广阔应用前景。

基于一系列人工测试与机器学习基准测试,o3 与 o4-mini 在 MMMU 大学水平视 觉问题解决任务中,o3 准确率达 82.9%,o4-mini 为 81.6%,远高于 GPT-4o 的 68.7% 和 o1 的 77.6%;在 MathVista 视觉数学推理任务里,o3 准确率 86.8%,o4-mini 为 84.3%,而 GPT-4o 仅 61.4%,o1 为 71.8%。在图表阅读和推理(CharXiv-descriptive、 CharXiv-reasoning)、感知基元(VLMs are blind)以及视觉搜索(V* search benchmark) 等任务中,o3 和 o4-mini 同样表现优秀,在各基准测试中大幅超越先前模型,创 下新的最高水平,例如在 V*search benchmark 测试中,o3 准确率高达 95.7%,o4- mini 为 94.6%,而 GPT-4o 和 o1 分别为 73.9%、69.7%。

然而,当前模型仍存在一定局限性。在推理链方面,模型可能执行冗余或不必要 的工具调用及图像处理步骤,致使思维链冗长;感知层面,模型仍会出现基本的 感知错误,即便工具调用正确推进推理,视觉误解也可能引发错误答案;可靠性 上,模型在多次尝试解决问题时,可能采用不同视觉推理过程,部分过程会导致 错误结果。 尽管如此,OpenAI o3 和 o4-mini 仍显著提升了视觉推理的先进水平,是迈向更广 泛多模态推理的关键一步,在视觉感知任务中实现一流准确率,攻克诸多此前的难题。目前,OpenAI 依旧致力于持续完善模型的图像推理能力,使其更简洁、可 靠,减少冗余,期待这些改进能为人们日常工作效率的提升带来积极影响。

OpenAI o3 和 o4-mini 在模型能力提升的同时,高度重视安全性的同步增强。从安 全训练数据层面来看,研发团队彻底重建相关数据,在生物威胁、恶意软件生成 和越狱等关键领域增添新的拒绝提示,使得这两款模型在内部拒绝基准测试中表 现优异。不仅如此,还开发系统级缓解措施,通过训练推理 LLM 监视器(基于人 类编写且可解释的安全规范)来标记危险提示,在生物风险场景下,该监视器能 成功标记约 99%人类红队活动对话,展现出强大的风险识别能力。 在安全评估与风险表现方面,o3 和 o4-mini 在内容安全与越狱防御上表现突出: 二者在标准与挑战性拒绝评估中对有害内容的拦截能力与 o1 持平或更优,且对已 知越狱攻击展现较强抵抗力。o4-mini 因模型规模较小在 PersonQA 中出现较高幻 觉率,而 o3 虽整体准确率优异但仍存在不实断言需优化,但二者在多模态安全领 域表现亮眼——其图文违规内容拒绝能力超越 o1,且在视觉任务中的安全性优于 o1 和 GPT-4o。指令层级冲突场景下,o3 与 o1 表现接近,o4-mini 稍逊,但通过 强化指令层级训练有效防止工具调用绕过。第三方评估显示,METR 认证二者具 备基础自主能力(o3 存在轻微奖励黑客行为),Apollo Research 指出虽具战略欺 骗潜力但灾难性风险低,而 Pattern Labs 验证 o3 的网络攻击能力优于 o4-mini,但 均未达专业威胁水平。

在多领域能力评估中,o3 和 o4-mini 展现出差异化表现:生物化学领域可辅助专 家规划已知生物威胁操作,但当前尚不具备支持新手创建生物威胁的高风险能力, 需警惕未来能力迭代带来的潜在风险;网络安全方面,二者在 CTF 挑战中对高中 至专业级赛题均展现出优于前代的解题能力,但受限于自主完成端到端网络操作 的能力(仅能在提供 solver code 时解决特定场景),尚未构成高自主性网络威胁; 人工智能自我改进维度,其在结构化任务(如 OpenAI 研究工程师面试、SWE-bench Verified 测试及 PRs 审查)中表现卓越,但在现实场景的开放式研究任务(如PaperBench)中效能显著下降,暂未达到“高”等级自主改进能力阈值。

经最严格安全程序压力测试,依据更新的防范框架,在生物和化学、网络安全以 及人工智能自我改进这三个关键跟踪能力领域评估显示,o3 和 o4-mini 在安全性 方面均低于“高”阈值标准,表明其安全性处于可控且相对较低风险水平。功能 与性能上,o3 和 o4-mini 将先进推理能力与全面工具功能深度融合,涵盖网页浏 览、Python 运用、图像及文件分析、图像生成等诸多方面,在处理复杂数学、编 码、科学难题以及视觉感知分析任务中表现卓越,还能在思维链中灵活调用工具 增强自身能力。从训练方法而言,OpenAI o 系列模型运用大规模强化学习思维链 进行训练,这为提升模型安全性和稳健性开拓了新路径,使其能在面对潜在不安 全提示时,基于上下文推理安全策略。OpenAI 安全咨询小组审查认定,o3 和 o4- mini 在三个跟踪类别中均未达“高”门槛。总体而言,OpenAI o3 和 o4-mini 在能 力与安全保障上实现了较好平衡与提升,但在不断变化的应用环境中,仍需持续 关注和优化其安全性表现。

参考报告

AI产业深度分析:OpenAI阵痛后的新生,从单纯技术驱动的模型竞赛到积极的工程化落地以支持AI产业更好的商业化生态.pdf

AI产业深度分析:OpenAI阵痛后的新生,从单纯技术驱动的模型竞赛到积极的工程化落地以支持AI产业更好的商业化生态。e_Summary]自2025年4月以来,OpenAI在LLM领域动作频繁,考虑到GPT-4.5“高价低效”的市场评价,将旗舰模型刚发布不到2个月GPT-4.5下线,随后发布对GPT-4.5的访谈视频,回顾其从构思到训练完成的历程,并反思局限性与最终效果。紧接着迅速推出o3与o4-mini两款头部推理模型以及新一代旗舰模型GPT-4.1,并推出一系列优化升级。这些动作表明OpenAI在经历一段时间的探索与沉淀后,正积极通过产品优化与创新,提升用户体验,降...

查看详情
相关报告
我来回答