接下来将简要介绍 ChatGPT 相关技术的发展历程。
ChatGPT 核心技 术主要包括其具有良好的自然语言生成能力的大模型 GPT-3.5 以及训练这 一模型的钥匙——基于人工反馈的强化学习(RLHF)。
GPT 家族是 OpenAI 公司推出的相关产品,这是一种生成式语言模型, 可用于对话、问答、机器翻译、写代码等一系列自然语言任务。每一代 GPT 相较于上一代模型的参数量均呈现出爆炸式增长。OpenAI 在 2018 年 6 月 发布的 GPT 包含 1.2 亿参数,在 2019 年 2 月发布的 GPT-2 包含 15 亿参 数,在 2020 年 5 月发布的 GPT-3 包含 1750 亿参数。与相应参数量一同增 长的还有公司逐年积淀下来的恐怖的数据量。可以说大规模的参数与海量的 训练数据为 GPT 系列模型赋能,使其可以存储海量的知识、理解人类的自 然语言并且有着良好的表达能力。
除了参数上的增长变化之外,GPT 模型家族的发展从 GPT-3 开始分 成了两个技术路径并行发展2,一个路径是以 Codex 为代表的代码预训练 技术,另一个路径是以 InstructGPT 为代表的文本指令(Instruction)预 训练技术。但这两个技术路径不是始终并行发展的,而是到了一定阶段后 (具体时间不详)进入了融合式预训练的过程,并通过指令学习(Instruction Tuning)、有监督精调(Supervised Fine-tuning)以及基于人类反馈的强化 学习(Reinforcement Learning with Human Feedback,RLHF)等技术实现 了以自然语言对话为接口的 ChatGPT 模型。
RLHF 这一概念最早是在 2008 年 TAMER:Training an Agent Manually via Evaluative Reinforcement[9]一文中被提及的。在传统的强化学习 框架下代理 (Agent) 提供动作给环境,环境输出奖励和状态给代理,而在 TAMER 框架下,引入人类标注人员作为系统的额外奖励。该文章中指出引 入人类进行评价的主要目的是加快模型收敛速度,降低训练成本,优化收敛 方向。具体实现上,人类标注人员扮演用户和代理进行对话,产生对话样本 并对回复进行排名打分,将更好的结果反馈给模型,让模型从两种反馈模式 ——人类评价奖励和环境奖励中学习策略,对模型进行持续迭代式微调。这 一框架的提出成为后续基于 RLHF 相关工作的理论基础。
在 2017 年前后,深度强化学习(Deep Reinforcement Learning)逐渐 发展并流行起来。MacGlashan et al.[10]提出了一种 AC 算法(Actor-critic), 并且将人工反馈(包括积极和消极)作为信号调节优势函数(Advantage function)。Warnell et al.[11]将 TAMER 框架与深度强化学习相结合,成功 将 RLHF 引入深度强化学习领域。在这一阶段,RLHF 主要被应用于模拟 器环境(例如游戏等)或者现实环境(例如机器人等)领域,而利用其对于 语言模型进行训练并未受到重视。
在 2019 年以后,RLHF 与语言模型相结合的工作开始陆续出现,Ziegler et al.[12]较早利用人工信号在四个具体任务上进行了微调并取得不错的效果。 OpenAI 从 2020 年开始关注这一方向并陆续发表了一系列相关工作,如应 用于文本摘要[13-14],利用 RLHF 训练一个可以进行网页导航的代理[15]等。 后来,OpenAI 将 RLHF 与 GPT 相结合的工作,提出了 InstructGPT 这 一 ChatGPT 的孪生兄弟[16],主要是利用 GPT-3 进行对话生成,旨在改善 模型生成的真实性、无害性和有用性。与此同时,作为缔造 AlphaGo 的公 司,具有一干擅长强化学习的算法工程师的 DeepMind 也关注到了这一方 向,先后发表了 GopherCite[17]和 Sparrow[18]两个利用 RLHF 进行训练的语 言模型,GopherCite 是在开放域问答领域的工作,Sparrow 是在对话领域的 一篇工作,并且在 2022 年 9 月,DeepMind 的聊天机器人也已经上线。
2022 年 12 月,OpenAI 在诸多前人工作的积淀之下推出了 ChatGPT。 ChatGPT 以 GPT-3.5 作为基座,依托其强大的生成能力,使用 RLHF 对 其进行进一步训练,从而取得了惊艳四座的效果。
纵观 ChatGPT 的发展历程,不难发现其成功是循序渐进的,OpenAI 从 2020 年开始关注 RLHF 这一研究方向,并且开展了大量的研究工作,积 攒了足够的强化学习在文本生成领域训练的经验。GPT 系列工作的研究则 积累了海量的训练数据以及大语言模型训练经验,这两者的结合才产生了 ChatGPT。可以看出技术的发展并不是一蹴而就的,是大量工作的积淀量 变引起质变。此外,将 RLHF 这一原本应用于模拟器环境和现实环境下的 强化学习技术迁移到自然语言生成任务上是其技术突破的关键点之一。
纵观 AI 这几年的发展,已经逐渐呈现出不同技术相互融合的大趋势, 比如将 Transformer 引入计算机视觉领域产生的 ViT;将强化学习引入蛋白 质结构预测的 AlphaFold 等。每个研究人员都有自己熟悉擅长的领域,而同ChatGPT 调研报告 时科学界也存在着大量需要 AI 赋能的亟待解决的关键问题,如何发现这些 问题的痛点,设计合理的方法,利用自己研究领域的优越的技术解决问题, 似乎是一个值得思考,也非常有意义的问题。
这是一个 AI 蓬勃发展的时代,计算机科学界每天都在产生着令人惊奇 的发明创造,很多之前人们可望而不可及的问题都在或者正在被解决的路 上。2022 年 2 月,DeepMind 发布可对托卡马克装置中等离子体进行磁控制 的以帮助可控核聚变的人工智能,这项研究目前仍在进行。或许在未来的某 一天,能源将不成为困扰我们的问题,环境污染将大大减少,星际远航将成 为可能。希望每个研究人员都能在这样的时代中,找到适合自己的研究方向 并且为科技进步添砖加瓦。