ChatGPT相关技术发展历程及脉络总结

提问时间：2023/03/10
浏览次数：522
提问者：匿名用户
举报
分享微信 QQ 微博

标签

ChatGPT

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2023/03/10 13:07

接下来将简要介绍 ChatGPT 相关技术的发展历程。

ChatGPT 核心技术主要包括其具有良好的自然语言生成能力的大模型 GPT-3.5 以及训练这一模型的钥匙——基于人工反馈的强化学习（RLHF）。

GPT 家族是 OpenAI 公司推出的相关产品，这是一种生成式语言模型，可用于对话、问答、机器翻译、写代码等一系列自然语言任务。每一代 GPT 相较于上一代模型的参数量均呈现出爆炸式增长。OpenAI 在 2018 年 6 月发布的 GPT 包含 1.2 亿参数，在 2019 年 2 月发布的 GPT-2 包含 15 亿参数，在 2020 年 5 月发布的 GPT-3 包含 1750 亿参数。与相应参数量一同增长的还有公司逐年积淀下来的恐怖的数据量。可以说大规模的参数与海量的训练数据为 GPT 系列模型赋能，使其可以存储海量的知识、理解人类的自然语言并且有着良好的表达能力。

除了参数上的增长变化之外，GPT 模型家族的发展从 GPT-3 开始分成了两个技术路径并行发展2，一个路径是以 Codex 为代表的代码预训练技术，另一个路径是以 InstructGPT 为代表的文本指令（Instruction）预训练技术。但这两个技术路径不是始终并行发展的，而是到了一定阶段后（具体时间不详）进入了融合式预训练的过程，并通过指令学习（Instruction Tuning）、有监督精调（Supervised Fine-tuning）以及基于人类反馈的强化学习（Reinforcement Learning with Human Feedback，RLHF）等技术实现了以自然语言对话为接口的 ChatGPT 模型。

RLHF 这一概念最早是在 2008 年 TAMER：Training an Agent Manually via Evaluative Reinforcement[9]一文中被提及的。在传统的强化学习框架下代理 (Agent) 提供动作给环境，环境输出奖励和状态给代理，而在 TAMER 框架下，引入人类标注人员作为系统的额外奖励。该文章中指出引入人类进行评价的主要目的是加快模型收敛速度，降低训练成本，优化收敛方向。具体实现上，人类标注人员扮演用户和代理进行对话，产生对话样本并对回复进行排名打分，将更好的结果反馈给模型，让模型从两种反馈模式 ——人类评价奖励和环境奖励中学习策略，对模型进行持续迭代式微调。这一框架的提出成为后续基于 RLHF 相关工作的理论基础。

在 2017 年前后，深度强化学习（Deep Reinforcement Learning）逐渐发展并流行起来。MacGlashan et al.[10]提出了一种 AC 算法（Actor-critic），并且将人工反馈（包括积极和消极）作为信号调节优势函数（Advantage function）。Warnell et al.[11]将 TAMER 框架与深度强化学习相结合，成功将 RLHF 引入深度强化学习领域。在这一阶段，RLHF 主要被应用于模拟器环境（例如游戏等）或者现实环境（例如机器人等）领域，而利用其对于语言模型进行训练并未受到重视。

在 2019 年以后，RLHF 与语言模型相结合的工作开始陆续出现，Ziegler et al.[12]较早利用人工信号在四个具体任务上进行了微调并取得不错的效果。 OpenAI 从 2020 年开始关注这一方向并陆续发表了一系列相关工作，如应用于文本摘要[13-14]，利用 RLHF 训练一个可以进行网页导航的代理[15]等。后来，OpenAI 将 RLHF 与 GPT 相结合的工作，提出了 InstructGPT 这一 ChatGPT 的孪生兄弟[16]，主要是利用 GPT-3 进行对话生成，旨在改善模型生成的真实性、无害性和有用性。与此同时，作为缔造 AlphaGo 的公司，具有一干擅长强化学习的算法工程师的 DeepMind 也关注到了这一方向，先后发表了 GopherCite[17]和 Sparrow[18]两个利用 RLHF 进行训练的语言模型，GopherCite 是在开放域问答领域的工作，Sparrow 是在对话领域的一篇工作，并且在 2022 年 9 月，DeepMind 的聊天机器人也已经上线。

2022 年 12 月，OpenAI 在诸多前人工作的积淀之下推出了 ChatGPT。 ChatGPT 以 GPT-3.5 作为基座，依托其强大的生成能力，使用 RLHF 对其进行进一步训练，从而取得了惊艳四座的效果。

纵观 ChatGPT 的发展历程，不难发现其成功是循序渐进的，OpenAI 从 2020 年开始关注 RLHF 这一研究方向，并且开展了大量的研究工作，积攒了足够的强化学习在文本生成领域训练的经验。GPT 系列工作的研究则积累了海量的训练数据以及大语言模型训练经验，这两者的结合才产生了 ChatGPT。可以看出技术的发展并不是一蹴而就的，是大量工作的积淀量变引起质变。此外，将 RLHF 这一原本应用于模拟器环境和现实环境下的强化学习技术迁移到自然语言生成任务上是其技术突破的关键点之一。

纵观 AI 这几年的发展，已经逐渐呈现出不同技术相互融合的大趋势，比如将 Transformer 引入计算机视觉领域产生的 ViT；将强化学习引入蛋白质结构预测的 AlphaFold 等。每个研究人员都有自己熟悉擅长的领域，而同ChatGPT 调研报告时科学界也存在着大量需要 AI 赋能的亟待解决的关键问题，如何发现这些问题的痛点，设计合理的方法，利用自己研究领域的优越的技术解决问题，似乎是一个值得思考，也非常有意义的问题。

这是一个 AI 蓬勃发展的时代，计算机科学界每天都在产生着令人惊奇的发明创造，很多之前人们可望而不可及的问题都在或者正在被解决的路上。2022 年 2 月，DeepMind 发布可对托卡马克装置中等离子体进行磁控制的以帮助可控核聚变的人工智能，这项研究目前仍在进行。或许在未来的某一天，能源将不成为困扰我们的问题，环境污染将大大减少，星际远航将成为可能。希望每个研究人员都能在这样的时代中，找到适合自己的研究方向并且为科技进步添砖加瓦。

参考报告

哈尔滨工业大学-ChatGPT调研报告.pdf

哈尔滨工业大学-ChatGPT调研报告。2022年11月30日，OpenAI推出全新的对话式通用人工智能工具——ChatGPT。ChatGPT表现出了非常惊艳的语言理解、生成、知识推理能力，它可以很好地理解用户意图，做到有效的多轮沟通，并且回答内容完整、重点清晰、有概括、有逻辑、有条理。ChatGPT上线后，5天活跃用户数高达100万，2个月活跃用户数已达1个亿，成为历史上增长最快的消费者应用程序。除了被广大用户追捧外，ChatGPT还受到了各国政府、企业界、学术界的广泛关注，使人们看到了解决自然语言处理这一认知智能核心问题的一条可能的路径，并被认为向通用人工智能迈出了...

查看详情

ChatGPT相关技术发展历程及脉络总结

哈尔滨工业大学-ChatGPT调研报告.pdf

如何看待ChatGPT热潮？

境内平台使用ChatGPT要注意哪些？

ChatGPT功能、应用场景、迭代历程及支持力分析

ChatGPT市场现状、特征、场景应用及商业化进展？

ChatGPT迭代历程及应用分析

ChatGPT通用性及背后原理分析

OpenAI ChatGPT特征、训练步骤及应用场景梳理

ChatGPT商业化进程、应用场景、迭代历程及优势分析

ChatGPT起源、商业模式、技术路线及应用情况如何？

ChatGPT技术路径、商业化规划及发展水平如何？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王