GPT-4的技术原理是什么?

GPT-4的技术原理是什么?

最佳答案 匿名用户编辑于2023/04/06 08:56

GPT-4 是第四代 GPT 模型,但是技术原理上与 GPT-3.5 版本的 ChatGPT 更为接近。

ChatGPT 的技术特征已经包含在其全称 Chat Generative Pre-trained Transformer 中,是针对对话(Chat)进行的专门优化,GPT-4 全部保留了上述 技术特征。Transformer 是 GPT 系列的基础架构,预训练和生成式是其成功之 匙。本节通过 Transformer、GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT 等一系列 GPT 技术的演进脉络分析,阐述 GPT-4 的技术原理。

2017 年,谷歌大脑团队在机器学习与人工智能领域顶会 NeurIPS 发表了 “Attention is all you need”论文,首次提出了基于自注意力机制(self-attention) 的变换器(Transformer)模型并用于自然语言处理。相比于传统的循环神经网 络(RNN)或卷积神经网络(CNN),Transformer 采用自注意力机制、多头注 意力机制、前馈网络、残差连接等技术,具有更好的长距离特征捕获能力、特征 提取能力和并行运行效率[1]。这些能力使 Transformer 可以处理更大量的数据, 形成更大规模的网络,从而引发了预训练模型的形成,并进一步使其在自然语言 处理任务中获得出色表现。Transformer 的诞生,深刻地影响了接下来几年人工 智能领域的发 展 , 标 志 着 预 训 练 大 模 型的开始 [7] 。 在 不 同的场 景 中 , Transformer 衍生出了不同架构。例如,在生成性任务中,GPT-3 是基于自回归 序列思路的模型[8];在自然语言理解任务中,BERT 是基于 Transformer+Mask 的自编码序列思路的模型[9];在条件文本生成任务中,T5 使用 Encoder-decoder 架构,利用双向或单向 attention 来解决条件文本生成任务 [10]。

GPT-1 模型基于 Transformer 解决了顺序关联和依赖性的问题,并采用生成 式方式,重点考虑了从原始文本中有效学习的能力。在 GPT-1 中,采用了 12 个 Transformer 块的结构作为解码器,每个 Transformer 块是一个多头的自注意力 机制,然后通过全连接得到输出的概率分布[2]。GPT-1 的训练分为无监督的预训 练和有监督的模型微调,这对于减轻自然语言处理中对监督学习的依赖至关重要。 但是,GPT-1采用的是自回归序列的架构,难以处理过长的文本。在生成长文本 时,GPT-1会出现信息遗忘和重复等问题。在某些特定任务上,如机器翻译等, 其表现并不如其他特定领域的模型表现出色。

GPT-2的目标是训练一个泛化能力更强的词向量模型,通过使用无监督的预 训练模型做有监督的任务,尝试解决 zero-shot(零次学习问题)[3]。GPT-2 没有对GPT-1的网络进行过多的结构创新与设计,只是使用了更多的网络参数和更大的 数据集。GPT-2的最大贡献是验证了通过海量数据和大量参数训练出来的词向量 模型可以迁移到其他任务中,而不需要额外的训练。然而实验表明,GPT-2的无 监督学习和零次学习结果未达预期。

GPT-3 在 GPT-2 追求无监督和零次学习的特征基础上进行了改进,转而追 求无监督模式下的 few-shot(少量学习)。GPT-3 在网络容量方面有了巨大提升, 基于 45TB 的文本数据训练,在多个 NLP 数据集上实现了出色的性能[4],具体来 说:采用了 96 层的多头 Transformer,每层有 96 个头;词向量长度为 12888; 上下文窗口大小提升至 2048 个 token;采用 alternating dense 和 locally banded sparse attention。GPT-3 能够生成高质量的文本,但有时在编写长句并反复重 复文本序列时可能会失去连贯性。而且无监督模式下的 few-shot 效果仍然略逊 于 fine-tuning 监督微调的方式。

InstructGPT 是基于 GPT-3 的一轮增强优化,所以也被称为 GPT-3.5。InstructGPT 采用了人类反馈的强化学习方案(RHLF),对 GPT-3 增加了监督微 调,进一步增加了奖励模型,通过训练出的奖励模型指导语言模型的学习即增强 学习优化[5]。这个过程是可以多次迭代优化的,因此 InstructGPT 自动化的实现 了比 GPT-3 更好的性能,同时减少了参数的数量。

ChatGPT 采用 InstructGPT 相同结构的模型,针对 Chat 进行了专门的优化, 同时开放到公众测试训练,以便产生更多有效标注数据。基于人类反馈的强化学 习(RLHF)方法的使用是 ChatGPT 区别于其他生成类模型的最主要原因,该 方法帮助模型尽量减少有害的、不真实的及有偏见的输出,提升自然沟通效果。 同时,为了更好地支持多轮对话,ChatGPT 引入了一种基于堆栈的上下文管理 的机制,帮助 ChatGPT 跟踪和管理多轮对话中的上下文信息[11]。ChatGPT 将上下文压入堆栈,并通过堆栈中的上下文信息使用注意力机制对齐用户的意图和之 前的对话内容,并根据对话历史生成响应,从而在多轮对话中生成连贯自然的回 复。 

GPT-4 与之前的 GPT 模型一样,是一个基于 Transformer 的预训练模型, 使用公共可用数据(如互联网数据)和第三方提供商许可的数据来预测文本中的 下一个词。然后使用人类反馈强化学习(RLHF)对模型进行微调。在此基础上 GPT-4 使用了更多的数据,基础模型的训练数据包括数学问题的正确和错误解 决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和 想法,同时建立了一个可预测扩展的深度学习堆栈[6],为了解决对于像 GPT-4 这样的大型模型训练,对特定任务微调是不可行的问题,这也是 GPT-4 的一大 重点,OpenAI 团队开发了基础设施和优化方法,通过使用自回归生成模型的缩 放定律[12],对大规模语言模型最终损失进行预测,增加可预测扩展,减少计算 量 。

参考报告

AIGC(GPT~4)赋能通信行业应用白皮书.pdf

AIGC(GPT~4)赋能通信行业应用白皮书。2022年被认为是人工智能生成内容(AIGC)元年。作为AIGC在自然语言领域的代表,ChatGPT在2022年年底一经推出,就掀起了一场可能涉及所有人和所有行业的“大火”,2023年3月GPT-4的发布则进一步推动了“态势升级”。由ChatGPT/GPT-4引发的全球关注,令许多人回忆起2016年AlphaGo战胜人类围棋世界冠军的时刻。如果说AlphaGo代表了AI在专业领域战胜人类的起点,ChatGPT/GPT-4似乎迈出了通用人工智能的第一步。这是第三次AI浪潮以来所有积累产生的硕果,AI技术...

查看详情
相关报告
我来回答