从文字对话交互开始,GPT 在短短几年的时间内深刻影响了人们的生产和生活,带来了巨大的变化,并且许多人认为它将继续带来颠覆性的改变。
1. GPT 基本概念
1.1. 生成式预训练转换器
GPT 的全称是Generative Pre-trained Transformer,即生成式预训练转换器,源于深度学习和自然语言处理(Natural Language Processing,NLP)领域。在过去的几年里,随着计算能力的提升和大数据的出现,NLP 领域取得了突破性的进展。GPT 作为一系列NLP 技术的集大成者,正是在这样的背景下应运而生的,如图1-1 所示。 G:Generative 。说明了GPT 的能力是自发生成内容。P:Pre-trained 。说明了GPT 已经过预训练,可以直接使用。T:Transformer 。说明了GPT 是基于Transformer 架构的语言模型。

2017 年,Google 团队首次提出基于自注意力机制(Self-Attention Mechanism,SAM)的Transformer 模型,并将其应用于NLP [1]。OpenAI 应用了这项技术,于2018 年发布了最早的一代大模型GPT-1,此后每一代GPT 模型的参数量都呈爆炸式增长,2019年2 月发布的GPT-2参数量为15亿,而2020年5 月发布的GPT-3,参数量直接达到了1750 亿。 因此,ChatGPT 的“一夜爆火”并不是偶然,它是经过了很多人的努力,以及很长一段时间的演化得来的。要了解GPT 的发展,首先应该了解大模型的概念以及Transformer 架构。
1.2. 大模型
一般来说,在ChatGPT 之前,被公众关注的AI 模型主要是用于单一任务的。比如,引燃了整个人工智能市场并促使其爆发式发展的“阿尔法狗”(AlphaGo),它基于全球围棋棋谱的计算,在2016 年轰动一时的“人机大战”中击败了围棋世界冠军李世石。但是从本质上来说,这种专注于某个具体任务而建立的AI 数据模型,和ChatGPT 相比,只能叫“小模型”。
大模型是指具有庞大的参数规模和复杂程度的机器学习模型,我们所提到的通常是大语言模型(Large Language Model,LLM)的简称。语言模型是一种人工智能模型,它被训练后可以理解和生成人类语言,而“大”的意思是指模型的参数量非常大,是相对于“小模型”而言的。这幅进化树图追溯了近些年大模型的发展历程,其中重点凸显了某些最知名的模型,同一分支上的模型关系更近[2]。实心方块表示开源模型, 空心方块则是闭源模型。非Transformer 的模型都用灰色表示,而基于Transformer 的模型中,仅编码器模型是粉色分支,仅解码器模型是蓝色分支,编码器-解码器模型是绿色分支。
基于这幅进化树示意图,我们可以得出:仅解码器模型正逐渐成为LLM发展的主导模型,且OpenAI 持续保持着其在LLM 方向上的领先地位。Meta 在开源和推动LLM 研究方面贡献卓越,但GPT-3 推出后LLM 开发有闭源的趋势。此外,仍有许多公司和机构在积极探索编码器-解码器模型,比如谷歌。
目前,国外大模型的主要发布机构有 OpenAI、Anthropic、Google 以及Meta等,这些模型参数规模以百亿级和千亿级为主。发展至今,国外的头部GPT大模型主要包括ChatGPT、Claude、Bard 和Llama 等。其中Bard 在谷歌发布了最新版原生多模态大模型Gemini 后,也正式更名为Gemini。在这场全球参与的竞争中,我国也紧跟步伐,开发了许多大模型。包括腾讯的“混元”、阿里的“通义千问”、华为的“盘古”以及中国移动的“九天”系列等。数据显示,截至2023 年10 月,国内10 亿参数规模以上的大模型厂商及高校院所共计254 家,意味着“百模大战”正从上一阶段的“生下来”走向“用起来”的新阶段。图1-3 展示了目前国内外厂商开发的一些大模型

1.3. Transformer 架构
Transformer 架构是GPT 的重要基础,是一种SAM 的神经网络架构,广泛应用于NLP 领域的大模型中。其核心部分是编码器和解码器,即Encoder 和Decoder 。编码器把输入文本编码成一系列向量,解码器则将这些向量逐一解码成输出文本。在 Transformer 提出之前,NLP 领域的主流模型是循环神经网络(Recurrent Neural Network,RNN),使用递归和卷积神经网络进行语言序列转换。
2017 年 6 月,谷歌大脑团队在 AI 领域的顶会NeurIPS 发表了一篇名为Attention is All You Need 的论文,首次提出了一种新的网络架构,即Transformer,它完全基于SAM,摒弃了循环递归和卷积。在八个P100 图形处理器(GraphicsProcessing Unit,GPU)上进行了仅仅12 个小时的训练之后,Transformer 就可以在翻译质量方面达到更高的水平[1],体现了很好的并行能力,成为当时最先进的LLM。 图1-4 给出了Transformer 的网络结构。Transformer 是由一系列编码器和解码器形成的,二者均由多头注意力层和全连接前馈网络组成。GPT类似于Transformer 的Decoder 部分,是一个自回归模型。
Transformer 中的核心组件是多头注意力机制模块,如图1-5 所示。它需要三个指定的输入Q(代表查询)、K(代表键)、V(代表值),然后通过公式将Q 和K 之间两两计算相似度,依据相似度对各个V 进行加权,得到注意力的计算结果。
多头注意力机制不是只计算一次注意力,而是将输入分成更小的块,然后并行计算每个子空间上的缩放点积注意力。这种结构设计能让每个注意力机制去优化每个词汇的不同特征部分,从而均衡同一种注意力机制可能产生的偏差,让模型能捕捉到不同层次的语义信息,增强模型的表达能力,提升模型效果。
2.GPT 发展历程
GPT 的发展历程主要可以分为两个阶段,在ChatGPT 之前侧重于不断增加 大模型的基础规模,并增强新能力。而ChatGPT 和GPT-4 则更侧重于增加人类反馈强化学习,理解人类意图,以提供更好的服务。
①2018 年6 月,OpenAI 公司发表论文Improving Language UnderstandingbyGenerative Pre-training,正式发布了GPT-1 [3]。 ·基本思路:生成式预训练(无监督)+下游任务微调(有监督)。·基于Transformer 的单向语言模型,解码器结构,共12 层。·参数为1.17 亿,训练数据量5GB,模型规模和能力相对有限。·上下文窗口为 512 tokens。 ②2019 年 2 月,OpenAI 发表了最新进展,一篇Language Models are Unsupervised Multitask Learners 的论文,提出语言模型是无监督的多任务学,GPT-2 也随之诞生[4]。 ·基本思路:去掉有监督,只保留无监督学习。 ·48 层Transformer 结构。 ·共15 亿个参数,数据训练量提升至40GB。 ·上下文窗口为 1024 tokens。
③2020 年5 月,OpenAI 公司发表论文Language Models are Few-Shot Learners,构建了GPT-3 模型[5]。 ·基本思路:无监督学习+in-context learning。 ·采用了96 层的多头 Transformer。 ·参数增大到1750 亿,基于45TB 的文本数据训练。·上下文窗口为 2048 tokens。 ④2022 年3 月,OpenAI 再次发表论文Training Language Models to FollowInstructions with Human Feedback ,介绍了人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF),并推出了InstructGPT 模型[6]。·基本思路:RLHF+微调训练。·增强了人类对模型输出结果的调节。 ·对结果进行了更具理解性的排序。 ChatGPT 是 InstructGPT 的衍生,两者的模型结构和训练方式都一致,只是采集数据的方式有所差异,ChatGPT 更加注重以对话的形式进行交互。
⑤2023 年3 月,OpenAI 又发布了多模态预训练大模型GPT-4,再次进行了重大升级。 ·基本思路:多模态。 ·上下文窗口为 8195 tokens。 ·1.8 万亿参数,13 万亿token 训练数据。 ·强大的识图能力。 虽然目前GPT-4 在现实场景中的能力可能不如人类,但在各种专业和学术考试上都表现出明显超越人类水平的能力,甚至SAT 成绩(可以理解为美国高考成绩)已经超过了90%的考生,达到了考进哈佛、斯坦福等名校的水平。
3. GPT 研究现状
2023年10月12 日,分析公司 stateof.ai 发布了《2023年人工智能现状报告》(State of AI Report 2023)。该报告指出,Open AI的GPT-4仍然是全球最强大的LLM,生成式AI推动了生命科学的进步,并拯救了风险投资界[7]。大模型正不断实现技术突破,特别是在生命科学领域,在分子生物学和药物发现方面取得了有意义的进展。 2023年12月14日,《自然》(Nature)公布了十位2023年度人物,值得注意的是,聊天机器人Chat GPT因为占领了2023年的各种新闻头条,深刻影响了科学界乃至整个社会,被破例作为第11个“非人类成员”纳入榜单,以表彰生成式人工智能给科学发展和进步带来的巨大改变。目前,国内外对GPT大模型的研究不断深入,纷纷开始研发自己的大模型,且应用的场景也越来越丰富。以Chat GPT为代表的大模型,正式开启了AI 2.0时代。
3.1. 国外研究现状
①美国 在美国,OpenAI、Anthropic 等初创企业和微软、Google 等科技巨头带领着美国在大模型的道路上飞速前进,同时各大公司也在不断提升自身的竞争力。Google 给Anthropic 投资3 亿美元以应对ChatGPT 的威胁,加入了AI 反馈强化学习(Reinforcement Learning from Artificial Intelligence Feedback,RLAIF)去减少人类的反馈,并于2022 年12 月发表论文Constitutional AI: HarmlessnessfromAI Feedback,介绍了人工智能模型Claude;美国新媒体巨头Buzzfeed 因宣布计划采用ChatGPT 协助内容创作,股价两天涨了三倍;微软作为OpenAI 的主要投资方,也在利用ChatGPT 来增强其产品竞争力,补充专业知识、补齐数理短板。
②英国 2023 年4 月,英国政府宣布,向负责构建英国版人工智能基础模型的团队提供1 亿英镑的起始资金,以助英国加速发展人工智能技术。英国政府表示,该投资将用于资助由政府和行业共建的新团队,以确保英国的人工智能“主权能力”。这一举措的目标是推广应用安全可靠的基础模型,并争取在2030 年将英国建设成为科技“超级大国”。且针对GPT 等大模型应用在人工智能伦理方面的争议,英国还发布了监管措施白皮书,并表示接下来监管机构将向各个组织发布使用指南和风险评估模板等其他工具及资源,来制定行业内的具体实施原则。
③欧洲 芬兰的Flowrite,是一个基于AI 的写作工具,可以通过输入关键词生成邮件、消息等内容。荷兰的全渠道通信平台 MessageBird 推出了自己的AI 平台MessageBi rd AI ,可以理解客户信息的含义并做出相应的响应。这两者都是在GPT-3的基础上运行的。德国在大模型的研发上也不断追赶。比如,谷歌2023年3 月7日推出的多模态大模型 PaLM-E ,就由柏林工业大学和谷歌共同打造。2024 年2月,欧洲生成式 AI 独角兽 Mistral AI 发布了最新大模型 Mistral Large 。该模型上下文窗口为 32K tokens ,支持英语、法语、西班牙语、德语和意大利语。作为新推出的旗舰模型,本次发布的 Mistral Large 在常识推理和知识问答上均表现出色,综合评分超过了 Gemini Pro 及 Claude 2 ,仅次于 GPT-4。
④韩国 韩国也是最早加入大模型研发的国家之一。目前,韩国在大模型领域的代表有NAVER、Kakao、KT、SKT 以及LG。韩国在半导体芯片方面的积累使其在大模型方面具有优势。目前韩国半导体企业正在积极结盟,以应对大模型发展带来的算力挑战。2022 年年底,NAVER 就开始和三星电子合作开发下一代人工智能芯片解决方案,即基于NAVER 推出的大模型HyperCLOVA 进行优化。此外,韩国在大模型的垂直应用上已经有比较多的探索,比如KoGPT 在医疗保健方面的应用、Exaone 在生物医药和智能制造方面的应用等。
⑤日本 作为一个小语种国家,日语面临缺乏语料的问题。日本最早公开上线的NLP大模型是2020 年发布的NTELLILINK Back Office,当时它能实现文档分类、知识阅读理解、自动总结等功能,是在谷歌BERT 基础上开发的应用。更有日本血统的生成式AI 其实是HyperCLOVA、Rinna 和ELYZAPencil,但其中HyperCLOVA 和Rinna 也都有外国基因。HyperCLOVA 最早是韩国搜索巨头NAVER 在2021 年推出的,但HyperCLOVA 确实是第一个专门针对日语的大模型,它曾在2021 年举行的对话系统现场比赛中获得了所有赛道的第一名。ELYZA Pencil 则是由东京大学松尾研究所的AI 初创公司推出的大模型,算是真正意义上日本首次公开发布的生成式AI 产品。
3.2. 国内研究现状
许多人可能会认为,中国的大模型是从“文心一言”开始的,但“文心一言”其实只是一个对话工具,背后驱动它的还是大模型,而文心大模型早在2019年就在国内率先发布。这一年,大模型已经广泛应用于药品研发领域,各大科技企业也开始了对大模型产业的布局,并先后公布了各自的大模型项目。2021 年 3 月智源研究院发布了我国首个超大规模智能模型系统“悟道1.0 ”。同年4 月, 阿里巴巴发布了中文社区最大规模的预训练语言模型PLUG,在当时有不少人将其称为“中文版GPT-3”。 近年来,国内在大模型领域取得了显著进展。从科研机构到企业,都加大了对大模型的投入力度,在算法、算力、数据等方面取得了重要突破。国内已经出现了一批具有国际竞争力的大模型,并在多个领域得到了广泛应用。2023 年3 月16 日,基于文心大模型,百度发布了“文心一言”,成为中国第一个类ChatGPT 产品。科大讯飞于2023 年5 月6 号发布中国版ChatGPT“讯飞星火认知大模型”,具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力和多模态能力七大核心能力。
3.3.国际组织
如今国际标准化组织(International Organization for Standardization,ISO)、国际电工委员会(International Electrotechnical Commission,IEC)等组织都已围绕关键术语等开展标准研究。2023 年 3 月,欧洲电信标准化组织(EuropeanTelecommunication Standards Institute,ETSI)亦提出了有关人工智能透明度和可解释性的标准规范,旨在生成更多可解释的模型,同时保持高水平的模型性能。第三代合作伙伴计划(3rd Generation Partnership Project,3GPP)规范包括了AI 在网络架构中的部署和使用,涵盖了AI 算法和架构的规范,还涉及了AI 数据的处理和管理标准。目前,3GPP 有四个工作组在进行AI/机器学习(MachineLearning,ML)标准化方面的研究工作,分别包括AI/ML for Air Interface、AI/MLfor RAN、AI/ML for 5GS 以及AI/ML for OAM。
2023 年11 月,在由上海人工智能实验室与商汤科技联合主办的电气电子工程师学会(Institute of Electrical and Electronics Engineers ,IEEE)“人工智能大模型”标准大会上,中国电子技术标准化研究院、上海人工智能实验室和华为云等 11 家单位共同发起成立了IEEE 大模型标准工作组。该工作组将协同国内外大模型产业力量,制定大模型技术规范、测评方法、安全可信、可靠决策等领域国际先进标准,为全球大模型产业技术创新和发展提供更好的支撑。