OpenAI o1能给AI带来什么?

OpenAI o1能给AI带来什么?

最佳答案 匿名用户编辑于2024/10/08 14:08

OpenAI o1 的命名,从某种意义上摆脱了 GPT这一过去命名过分强调预训练(Pre-trained)的意味,而是让它更成为 一个更强调推理能力训练的模型系列。

我认为,o1 至少为困于数据和基建无法快速提升预训练规模的模型公司们提供 了一个新的角度,从推理侧和强化学习的方法入手,加强模型的能力。从某种意义上, OpenAI o1 确实是第一个“推理模型”。 根据腾讯科技,月之暗面创始人杨植麟在一场分享中谈到了他对 o1 的看法,他认 为,规模定律之后,大模型发展的下一个范式是强化学习,OpenAI o1 模型的发布,通 过强化学习尝试突破数据墙,并看到计算更多向推理侧增加的趋势。

从应用的角度来看,o1 在很多领域的并不像现有的 GPT-4o 一样突出,在某些自 然语言任务中,可能 o1 的表现仍不如 GPT-4o,OpenAI 对 o1-mini 的评价更是“缺乏 广泛的世界知识”,此外 o1 也没有浏览网页或处理文件和图像的能力。 但是,在推理密集型的任务类别中,如数据分析、编程和数学,o1 相较于 GPT-4o 有显著优势,例如基于 o1 针对编程能力优化的 o1-ioi 在放宽提交次数限制时,能够在 2024 年国际信息学奥林匹克竞赛得分达到 362.14 分,超过了金牌门槛,且不需要任何 测试时的选择策略,在某种程度上,我们认为,可以说 o1 在部分细分领域已经接近了 当前人类的天花板,这就使得 o1 在部分细分的应用场景,已经接近“替代大部分人类” 这一目标。 根据 o1 现在的表现,我们认为,o1 处理复杂任务能力更加突出,它的先进推理能 力可以提升科学研究、数学计算和编程领域的效率,我们推测,这可能是因为这些领域 的任务通常具有明确的规则和目标,使得奖励函数更容易设计和优化,PRM 运作效率更 高,但这也代表未来 o1 在 STEM 领域可能有更多的应用空间,还可能推动人工智能在 生物制药、IC 制造等行业的创新应用,按照 o1 的发展思路,也许未来,人们能够让 AI 思考数小时、数天甚至数周,伴随着更高的推理成本,人类也会离新的抗癌药物、突破 性的电池甚至黎曼猜想的证明更近。 当然值得注意的是,o1 目前仍处于 AI 发展的初级阶段。 根据深圳市人工智能产业协会官微,OpenAI 给 AI 划分了五个发展阶段。

第一级,「ChatBots」聊天机器人,比如 ChatGPT。 第二级,「Reasoners」推理者,解决博士水平基础问题的系统。 第三级,「Agents」智能体,代表用户采取行动的 AI 代理。 第四级,「Innovators」创新者,帮助发明的 AI。 第五级,「Organizations」组织,AI 可以执行整个人类组织的工作,这是实现 AGI 的最后一步。 我们认为,按照这个标准,o1 目前在第二级,人类距离 AGI 的道路仍然道阻且长。 不过,根据 Tracking AI,o1 在最新门萨智商测试中,IQ 水平超过了 120 分,远超 目前业界其他大模型的水平,而且值得注意的是,这仅仅是 o1-preview 的水平,这也 代表着 o1 这类大模型所蕴含的巨大潜能。

正如我们在上一章节所讨论的内容,我们认为,OpenAI o1 并非是颠覆式的技术革 命,但是其带动了前沿技术的工程化应用。值得关注的是,o1 所采用的自我对弈强化 学习和思维链等业界前沿技术,我国大模型科研和产业界也在同步研究和实践应用中。 根据阿里研究院官微,阿里巴巴通义千问大模型也已经实际采用自我对弈强化学习 和思维链技术,在深度思考和复杂推理能力上代表中国大模型最高水平,与国际领先水 平保持同步。并已于 7 月 18 日发布此领域的研究论文。 此外,来自于清华大学、北京大学、腾讯、第四范式等机构的研究人员在 2024 年 8 月刚刚发布了自我对弈强化学习方法的综述:《A Survey on Self-play Methods in Reinforcement Learning》,论文提供了一个统一的框架,并在该框架下对现有的自博弈 算法进行了分类,论文自述为“理解强化学习中多层次自博弈领域的关键指南”。 我们认为,中国的大型模型产业正从单纯的产品创新走向应用深化的新阶段,伴随 AI 技术的持续深化,大模型的实用性正在逐渐接近大规模商业化运用的“转折点”,从 而释放出众多新的应用场景,这些进展也促使大型模型的使用频率迅速增长。

每一次大模型在性能上的进步,都可能将应用的边界推向更广阔的领域,o1 应用的技术我国的 AI 业界也早有关注,o1 系列模型的发展也为我国大模型的发展指出了一条新路,有望 助推相关技术在我国 AI 业界更快实践发展,从而助力我国 AI 行业整体的进步。 Gordon Moore(摩尔定律发明人)在 2005 年接受采访时,曾说过这样一段话:“It sure is nice to be at the right place at the right time, I was very fortunate to get into the semiconductor industry in its infancy. And I had an opportunity to grow from the time where we couldn’t make a single silicon transistor to the time where we put 1.7 billion of them on one chip! It’s been a phenomenal ride.” 我们相信,o1 代表的是全新的大模型推理范式,这一范式也许能够改变人们对于“智 能”这一概念的理解,当然,正如 Ilya 的论文标题所写,这仍需要“一步步验证(Let's Verify Step by Step)”,但是也许数十年后,回望如今,我们也能说出,我们很幸运能够 “at the right place at the right time”,这是属于 AI 的“Phenomenal Ride”。

相关报告
我来回答