OpenAI o3与o4-mini核心看点在哪？

提问时间：2025/06/19
浏览次数：54
提问者：匿名用户
举报
分享微信 QQ 微博

标签

OpenAI

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2025/06/19 08:55

全新推理模型 OpenAI o3 与 o4-mini 拥有强大的任务处理能力和高效的工具运用能力，为复杂任务的解决奠定了基础。

OpenAI o3 是一款在编码、数学、科学和视觉感知领域具备显著能力的推理模型。该模型在 Codeforces、SWE-bench（无需构建特定于模型的自定义支架）和 MMMU 等基准测试中建立了新的最先进（SOTA）性能。其适用于需要多方面分析且答案并非直接显见的复杂查询，在涉及图像、图表和图形分析的视觉任务中表现显著。外部专家评估表明，在具有挑战性的现实任务中，o3 相比 o1 的重大错误率降低 20%，在编程、商业/咨询和创意构思领域性能提升显著。早期测试者强调了其作为“思维伙伴”的分析严谨性，尤其在生物学、数学和工程领域生成并批判性评估新假设的能力。在开发过程中，o3 在大规模强化学习（RL）中展现出与 GPT 系列预训练阶段类似的“计算-性能”趋势。通过将强化学习训练计算量和推理时间提升一个数量级，模型实现了持续的性能提升，验证了推理时长与模型性能的正相关性。在与 o1 相同的延迟和成本条件下，o3 在 OpenAI 部署中表现出更高性能，且经证实，随着推理时间增加，其性能会进一步提升。

该模型通过强化学习训练实现工具使用能力，包括工具操作知识和工具使用时机的上下文推理。这一能力提升了其在开放式场景中的表现，尤其是在涉及视觉推理和多步骤工作流程的任务中。早期测试者报告显示，在学术基准测试和实际任务执行中，o3 均通过工具使用能力的改进实现了结果提升。 o4-mini 作为轻量化模型，聚焦快速且经济高效的推理性能优化。在同等规模与成本条件下，其于数学运算、编码任务及视觉处理等领域展现出卓越性能表现，尤为突出的是，该模型在 AIME 2024 和 2025 基准测试中均位列榜首。值得关注的是，尽管借助计算机辅助能够降低 AIME 考试难度，但实测数据显示，当配备 Python 解释器时，o4-mini 在 AIME 2025 测试中实现了 99.5%的通过率，充分印证了 o4-mini 对外部工具的高效调用与协同能力；与之类似，o3 在 AIME 2025 测试中通过工具运用，也取得了 98.4%的通过率与 100%的共识率，展现出工具赋能对模型性能提升的显著作用。相较于前代 o3-mini，o4-mini 在非 STEM 领域任务处理及数据科学应用中均实现性能超越。凭借其高效推理特性，o4-mini 在使用限制上显著优于 o3，能够为大规模、高并发的推理任务提供强大支撑，成为高容量、高吞吐量场景下的理想解决方案。外部专家评估指出，o4-mini 与 o3 通过智能化升级和网络资源整合，在指令遵循能力上较前代模型实现显著提升，输出响应兼具实用性与可验证性。同时，二者在对话交互层面进行深度优化，通过对历史记忆与对话内容的有效调用，使输出结果更具个性化与场景适配性，显著增强交互自然度与连贯性。在 AIME 2024 和 2025 数学竞赛测试里，o4-mini 即便无工具辅助，准确率也高于 o1 和 o3-mini，且 o3、o4-mini 在有工具时准确率进一步提升，工具对模型解题能力有促进作用；在 Codeforces 编程竞赛测试中，o3 和 o4-mini 使用终端工具后 ELO 得分大幅领先 o1，在编程任务借助工具能力可显著提升。

GPQA Diamond 测试中，o3（无工具）准确率最高，o4-mini（无工具）次之，o1 和 o3-mini 稍低；而 Humanity’s Last Exam 测试里中，o4- mini（有工具）准确率领先，o3（有工具）次之。不同模型在科研及综合专业问答任务中各有优劣，进一步体现 o3 及 o4-mini 模型借助工具可提升性能。总体而言，o4-mini 和 o3 在多测试场景展现出较好潜力，工具使用对模型的编码性能提升有重要意义。

在编码领域，o3 与 o4-mini 通过实际任务完成情况彰显其能力。在 SWE-Lancer 自由编码任务中，o3-high 和 o4-mini-high 脱颖而出。o3-high 赚取金额高达$65,250， o4-mini-high 也有$56,375 的收入，与 o1-high 的$28,500 和 o3-mini-high 的$17,375 形成鲜明对比。这一数据直观地表明，o3 和 o4-mini 在实际编码工作的创收能力上优势显著，意味着它们能够更为高效且优质地处理编码任务，为实际项目带来更高价值。而在 SWE-Bench Verified 软件工程测试中，二者的准确率同样令人瞩目。o3 以 69.1%的准确率领先，o4-mini 也达到了 68.1%，远超 o1 的 48.9%和 o3- mini 的 49.3%。进一步证实，在软件工程相关的编码任务中，o3 和 o4-mini 能够精准地完成任务，展现卓越的编码能力。

遵循指令能力是衡量模型能否准确执行复杂任务的重要指标。在 Scale MultiChallenge 多轮指令遵循测试中，o3 展现出独特优势。其 56.5%的准确率高于 o1 的 44.9%、o3- mini 的 39.9%以及 o4-mini 的 43%。o3 在面对多轮指令时，能够更好地理解并按照指令要求执行任务，在需要精确遵循指令步骤的场景中，更具可靠性。

代理工具使用能力对于模型处理复杂任务至关重要。在视觉推理任务方面，无论是 MathVista 视觉数学推理测试，还是 CharXiv-Reasoning 科学图形推理测试，o3 和 o4-mini 均表现出色。在 MathVista 测试中，o3 准确率为 86.8%，o4-mini 为 84.3%，远高于 o1 的 71.8%；在 CharXiv-Reasoning 测试里，o3 准确率 78.6%，o4- mini 为 72.0%，同样高于 o1 的 55.1%。这充分说明，在处理涉及视觉信息理解与推理的任务时，o3 和 o4-mini 能够有效借助工具，完成复杂的视觉任务。在 BrowseComp 代理浏览测试中，o3 和 o4-mini 结合工具后的表现更是令人惊叹。 o3 结合 python 和浏览工具时准确率为 49.7%，o4-mini 在 Deep research 下结合相关工具准确率达 51.5%，与 o1 结合浏览工具仅 1.9%的准确率形成巨大反差。这表明 o3 和 o4-mini 在代理浏览任务中，对工具的运用能力远超其他模型，能够通过工具获取和处理信息，提升任务完成质量。此外，在 Tau-bench 函数调用测试中，在航空和零售等不同行业场景里，o3-high 和 o4-mini-high 也展现出较高的准确率。如零售场景中，o3-high 达到 73.9%，o4-mini-high 为 71.8%，说明它们在涉及函数调用这类工具使用任务时，能够准确运用工具实现功能，满足不同行业的任务需求。

o3 和 o4-mini 在编码、遵循指令以及代理工具使用等多个关键领域，相较于其他模型展现出明显优势。它们凭借强大的任务处理能力和高效的工具运用能力，为人工智能在实际应用中的发展提供了有力支持，也为未来更多复杂任务的解决奠定了坚实基础。

OpenAI o3 和 o4-mini 作为 o 系列最新的推理模型，在视觉信息处理方面，首次达成将图像直接融入思维链进行思考。开创了视觉与文本推理融合的全新问题解决范式。从图像输入适应性来看，用户可上传白板照片、教科书图表、手绘草图等各类图像。即便图像存在模糊、反转或质量欠佳等状况，模型仍具备解读能力。在工具辅助下，模型能够对图像进行动态操作，涵盖旋转、缩放、变换等处理，极大拓展了图像分析的灵活性与深度。在视觉感知任务中，o3 和 o4-mini 可达到顶尖准确率，成功攻克诸多此前难以解决的问题。与 OpenAI o1 相似，o3 和 o4-mini 经训练具备在回答前进行深度思考的能力，运用较长的内部思维链推导答案。在此基础上，o3 和 o4-mini 进一步升级，将图像纳入思维链体系。模型可通过工具对用户上传图像进行转换，实现裁剪、放大、旋转等基础图像处理操作，且这些功能内置于模型，无需借助独立专用模型，确保了视觉推理的连贯性与高效性。借助 o3 和 o4-mini 可实现视觉智能增强，能够以更全面、准确、可靠的方式剖析图像，助力用户应对复杂难题。该能力可将高级推理与网页搜索、图像处理（包括自动缩放、裁剪、翻转、增强图像等）等工具无缝集成，即便面对低质量照片，也能有效提取关键信息。如用户上传经济学习题集照片可获取详细步骤讲解，分享构建错误的屏幕截图能快速得到根本原因分析。这种融合方式为测试时间计算扩展提供了新维度，实现视觉与文本推理的自然融合，在多模式基准测试中呈现出领先性能，是迈向多模式推理的关键进展。在用户交互层面，o3 和 o4-mini 基于图像思考的特性，显著优化了与 ChatGPT 的交互体验。用户通过拍照提问时，无需顾虑物体位置、图像文字颠倒或存在多个问题等情况。视觉推理功能支持模型自动放大查看图像细节，精准捕捉关键信息。此外，这两款最新视觉推理模型可与 Python 数据分析、网络搜索、图像生成等工具协同运作，以创新且高效的方式处理复杂问题，为用户带来 OpenAI 首个多模式代理体验，在科研、教育、工程等多领域具有广阔应用前景。

基于一系列人工测试与机器学习基准测试，o3 与 o4-mini 在 MMMU 大学水平视觉问题解决任务中，o3 准确率达 82.9%，o4-mini 为 81.6%，远高于 GPT-4o 的 68.7% 和 o1 的 77.6%；在 MathVista 视觉数学推理任务里，o3 准确率 86.8%，o4-mini 为 84.3%，而 GPT-4o 仅 61.4%，o1 为 71.8%。在图表阅读和推理（CharXiv-descriptive、 CharXiv-reasoning）、感知基元（VLMs are blind）以及视觉搜索（V* search benchmark）等任务中，o3 和 o4-mini 同样表现优秀，在各基准测试中大幅超越先前模型，创下新的最高水平，例如在 V*search benchmark 测试中，o3 准确率高达 95.7%，o4- mini 为 94.6%，而 GPT-4o 和 o1 分别为 73.9%、69.7%。

然而，当前模型仍存在一定局限性。在推理链方面，模型可能执行冗余或不必要的工具调用及图像处理步骤，致使思维链冗长；感知层面，模型仍会出现基本的感知错误，即便工具调用正确推进推理，视觉误解也可能引发错误答案；可靠性上，模型在多次尝试解决问题时，可能采用不同视觉推理过程，部分过程会导致错误结果。尽管如此，OpenAI o3 和 o4-mini 仍显著提升了视觉推理的先进水平，是迈向更广泛多模态推理的关键一步，在视觉感知任务中实现一流准确率，攻克诸多此前的难题。目前，OpenAI 依旧致力于持续完善模型的图像推理能力，使其更简洁、可靠，减少冗余，期待这些改进能为人们日常工作效率的提升带来积极影响。

OpenAI o3 和 o4-mini 在模型能力提升的同时，高度重视安全性的同步增强。从安全训练数据层面来看，研发团队彻底重建相关数据，在生物威胁、恶意软件生成和越狱等关键领域增添新的拒绝提示，使得这两款模型在内部拒绝基准测试中表现优异。不仅如此，还开发系统级缓解措施，通过训练推理 LLM 监视器（基于人类编写且可解释的安全规范）来标记危险提示，在生物风险场景下，该监视器能成功标记约 99%人类红队活动对话，展现出强大的风险识别能力。在安全评估与风险表现方面，o3 和 o4-mini 在内容安全与越狱防御上表现突出：二者在标准与挑战性拒绝评估中对有害内容的拦截能力与 o1 持平或更优，且对已知越狱攻击展现较强抵抗力。o4-mini 因模型规模较小在 PersonQA 中出现较高幻觉率，而 o3 虽整体准确率优异但仍存在不实断言需优化，但二者在多模态安全领域表现亮眼——其图文违规内容拒绝能力超越 o1，且在视觉任务中的安全性优于 o1 和 GPT-4o。指令层级冲突场景下，o3 与 o1 表现接近，o4-mini 稍逊，但通过强化指令层级训练有效防止工具调用绕过。第三方评估显示，METR 认证二者具备基础自主能力（o3 存在轻微奖励黑客行为），Apollo Research 指出虽具战略欺骗潜力但灾难性风险低，而 Pattern Labs 验证 o3 的网络攻击能力优于 o4-mini，但均未达专业威胁水平。

在多领域能力评估中，o3 和 o4-mini 展现出差异化表现：生物化学领域可辅助专家规划已知生物威胁操作，但当前尚不具备支持新手创建生物威胁的高风险能力，需警惕未来能力迭代带来的潜在风险；网络安全方面，二者在 CTF 挑战中对高中至专业级赛题均展现出优于前代的解题能力，但受限于自主完成端到端网络操作的能力（仅能在提供 solver code 时解决特定场景），尚未构成高自主性网络威胁；人工智能自我改进维度，其在结构化任务（如 OpenAI 研究工程师面试、SWE-bench Verified 测试及 PRs 审查）中表现卓越，但在现实场景的开放式研究任务（如PaperBench）中效能显著下降，暂未达到“高”等级自主改进能力阈值。

经最严格安全程序压力测试，依据更新的防范框架，在生物和化学、网络安全以及人工智能自我改进这三个关键跟踪能力领域评估显示，o3 和 o4-mini 在安全性方面均低于“高”阈值标准，表明其安全性处于可控且相对较低风险水平。功能与性能上，o3 和 o4-mini 将先进推理能力与全面工具功能深度融合，涵盖网页浏览、Python 运用、图像及文件分析、图像生成等诸多方面，在处理复杂数学、编码、科学难题以及视觉感知分析任务中表现卓越，还能在思维链中灵活调用工具增强自身能力。从训练方法而言，OpenAI o 系列模型运用大规模强化学习思维链进行训练，这为提升模型安全性和稳健性开拓了新路径，使其能在面对潜在不安全提示时，基于上下文推理安全策略。OpenAI 安全咨询小组审查认定，o3 和 o4- mini 在三个跟踪类别中均未达“高”门槛。总体而言，OpenAI o3 和 o4-mini 在能力与安全保障上实现了较好平衡与提升，但在不断变化的应用环境中，仍需持续关注和优化其安全性表现。

参考报告

AI产业深度分析：OpenAI阵痛后的新生，从单纯技术驱动的模型竞赛到积极的工程化落地以支持AI产业更好的商业化生态.pdf

AI产业深度分析：OpenAI阵痛后的新生，从单纯技术驱动的模型竞赛到积极的工程化落地以支持AI产业更好的商业化生态。e_Summary]自2025年4月以来，OpenAI在LLM领域动作频繁，考虑到GPT-4.5“高价低效”的市场评价，将旗舰模型刚发布不到2个月GPT-4.5下线，随后发布对GPT-4.5的访谈视频，回顾其从构思到训练完成的历程，并反思局限性与最终效果。紧接着迅速推出o3与o4-mini两款头部推理模型以及新一代旗舰模型GPT-4.1，并推出一系列优化升级。这些动作表明OpenAI在经历一段时间的探索与沉淀后，正积极通过产品优化与创新，提升用户体验，降...

查看详情

OpenAI o3与o4-mini核心看点在哪？

AI产业深度分析：OpenAI阵痛后的新生，从单纯技术驱动的模型竞赛到积极的工程化落地以支持AI产业更好的商业化生态.pdf

OpenAI经营看点在哪？

OpenAI算力建设、需求与财务分析

OpenAI Operator智能体看点在哪？

Openai发布会梳理

OpenAI发布会深度总结

OpenAI o1能给AI带来什么？

OpenAI模型进展如何？

OpenAI Sora亮点在哪？

OpenAI用户市场空间及成本分析

如何看待OpenAI的前世今生？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王