ChatGPT专题报告：解析ChatGPT背后的技术演进.pdf

上传者：十三姨
时间：2023/03/24
浏览次数：582
下载次数：51
0人点赞
举报

ChatGPT专题报告：解析ChatGPT背后的技术演进。自然语言处理（Natural Language Processing, NLP）的发展历程可分为三个阶段； 1）上世纪 80 年代之前，人工智能开始萌芽，基于规则的语言系统占据主导，出现了机器翻译以及语言对话的初级产品； 2）1980 年之后，机器学习在全球范围内兴起，自然语言处理走向纯粹的统计学，90 年代后神经网络引入，NLP 进入了快速发展期，并在 2000 年后逐渐开启了商业化进程； 3）2017 年，Google 发布著名论文《Attention is All You Need》，提出了基于 Attention 注意力机制构建的 Transformer 模型，2018 年 OpenAI 的 GPT 模型以及 Google 的 BERT 模型均是在 Transformer 的基础上构建，大语言模型时代正式开启。

Attention 注意力机制与 Transformer 是大语言模型的基石。 1）Attention 机制在并行计算（效率更高）以及解决长距离信息依赖的能力（效果更好）上优于过去的神经网络模型。 2）Transformer 模型没有使用传统的 CNN 和 RNN 结构，其完全是由 Attention 机制组成，其中 Self-Attention（自注意力）是 Transformer 的核心。 3）OpenAI 的 GPT 模型和 Google 的 BERT 模型虽然都是基于 Transformer 所构建，但 GPT 模型仅使用了解码器的部分，而 BERT 仅使用了编码器的部分，二者在技术路线上也走向了两条不同的道路。

GPT 模型的持续进化与能力突变：从 CPT-1 到 CPT-4。 1）GPT-1：有监督学习和无监督学习的结合，模型的语言泛化能力不够，更接近于处理特定语言任务的专家模型，而非通用的语言模型； 2）GPT-2：舍弃了模型微调，让多个不同的任务在同一个模型上学习，构建了换一个泛化能力更强的语言模型，开始让语言模型的通用性得到了更加充分的展现； 3）GPT-3：在训练方法上则采取了 In-context 学习，参数量相较于 GPT-2 提升了两个数量级，达到了 1750 亿，数据集在处理前容量达到了 45TB，是真正意义上的超大语言模型。 4）ChatGPT：引入人类反馈的强化学习（RLHF）及近端策略优化算法（PPO）等新的训练方式后，语言生成能力大幅提升，并且涌现出了思维链及逻辑推理等多种能力。 5）GPT-4：在推理能力、文本生成能力、对话能力等方面有了进一步提升的同时，实现了从大语言模型向多模态模型进化的第一步。