OpenAI GPT系列模型开发进程、创新及商业模式分析

OpenAI GPT系列模型开发进程、创新及商业模式分析

最佳答案 匿名用户编辑于2023/10/25 17:13

多模态大模型GPT-4是OpenAI公司GPT系列最新一代模型。

美国OpenAI公司成立于2015年12月,是全球顶级的人工智能研究机构之一,创始人 包括Elon Musk、著名投资者Sam Altman、支付服务PayPal创始人Peter Thiel等人。 OpenAI作为人工智能领域的革命者,成立至今开发出多款人工智能产品。2016年, OpenAI推出了用于强化学习研究的工具集OpenAI Gym;同时推出开源平台OpenAI Universe,用于测试和评估智能代理机器人在各类环境中的表现。2019年,OpenAI 发布了GPT-2模型,可根据输入文本自动生成语言,展现出人工智能创造性思维的 能力;2020年更新了GPT-3语言模型,并在其基础上发布了OpenAI Codex模型,该 模型可以自动生成完整有效的程序代码。

2021年1月,OpenAI发布了OpenAI CLIP, 用于进行图像和文本的识别分类;同时推出全新产品DALL-E,该模型可以根据文字 描述自动生成对应的图片,2022年更新的DALL-E2更是全方位改进了生成图片的质 量,获得了广泛好评。 2022年12月,OpenAI推出基于GPT-3.5的新型AI聊天机器人ChatGPT,在发布进 两个月后拥有1亿用户,成为史上用户增长最快的应用;美东时间2023年3月14日, ChatGPT的开发机构OpenAI正式推出多模态大模型GPT-4。

GPT(General Pre-Training)系列模型即通用预训练语言模型,是一种利用 Transformer作为特征抽取器,基于深度学习技术的自然语言处理模型。 GPT系列模型由OpenAI公司开发,经历了长达五年时间的发展: (1)其最早的产品GPT模型于2018年6月发布,该模型可以根据给定的文本序列进 行预测下一个单词或句子,充分证明通过对语言模型进行生成性预训练可以有效减 轻NLP任务中对于监督学习的依赖; (2)2019年2月GPT-2模型发布,该模型取消了原GPT模型中的微调阶段,变为无 监督模型,同时,GPT-2采用更大的训练集尝试zero-shot学习,通过采用多任务模 型的方式使其在面对不同任务时都能拥有更强的理解能力和较高的适配性;

(3)GPT-3模型于2020年6月被发布,它在多项自然语言处理任务上取得了惊人的 表现,并被认为是迄今为止最先进的自然语言处理模型之一。GPT-3训练使用的数 据集为多种高质量数据集的混合,一次保证了训练质量;同时,该模型在下游训练 时用Few-shot取代了GPT-2模型使用的zero-shot,即在执行任务时给予少量样例, 以此提高准确度;除此之外,它在前两个模型的基础上引入了新的技术——“零样 本学习”,即GPT-3即便没有对特定的任务进行训练也可以完成相应的任务,这使 得GPT-3面对陌生语境时具有更好的灵活性和适应性。

(4)2022年11月,OpenAI发布GPT-3.5模型,是由GPT-3微调出来的版本,采用 不同的训练方式,其功能更加强大。基于GPT-3.5模型,并加上人类反馈强化学习 (RLHF)发布ChatGPT应用,ChatGPT的全称为Chat Generative Pre-trained Transformer,是建立在大型语言模型基础上的对话式自然语言处理工具,表现形式 是一种聊天机器人程序,能够学习及理解人类的语言,根据聊天的上下文进行互动, 甚至能够完成翻译、编程、撰写论文、编辑邮件等功能。 (5)2023年3月,OpenAI正式发布大型多模态模型GPT-4(输入图像和文本,输出 文本输出),此前主要支持文本,现模型能支持识别和理解图像。

由于OpenAI并没有提供关于GPT-4用于训练的数据、算力成本、训练方法、架构等 细节,故我们本章主要讨论ChatGPT模型的技术路径。 ChatGPT模型从算法分来上来讲属于生成式大规模语言模型,底层技术包括 Transformer架构、有监督微调训练、RLHF强化学习等,ChatGPT通过底层技术 的叠加,实现了组合式的创新。 GPT模型采用了由Google提出的Transformer架构。Transformer架构采用自注意 力机制的序列到序列模型,是目前在自然语言处理任务中最常用的神经网络架构之 一。相比于传统的循环神经网络(RNN)或卷积神经网络(CNN),Transformer 没有显式的时间或空间结构,因此可以高效地进行并行计算,并且Transformer具有 更好的并行化能力和更强的长序列数据处理能力。

ChatGPT模型采用了“预训练+微调”的半监督学习的方式进行训练。第一阶段是 Pre-Training阶段,通过预训练的语言模型(Pretrained Language Model),从大 规模的文本中提取训练数据,并通过深度神经网络进行处理和学习,进而根据上下 文预测生成下一个单词或者短语,从而生成流畅的语言文本;第二阶段是Fine-tuning 阶段,将已经完成预训练的GPT模型应用到特定任务上,并通过少量的有标注的数 据来调整模型的参数,以提高模型在该任务上的表现。

ChatGPT在训练中使用了RLHF人类反馈强化学习模型,是GPT-3模型经过升级并 增加对话功能后的最新版本。2022年3月,OpenAI发布InstructGPT,这一版本是 GPT-3模型的升级版本。相较于之前版本的GPT模型,InstructGPT引入了基于人类 反馈的强化学习技术(Reinforcement Learning with Human Feedback,RLHF), 对模型进行微调,通过奖励机制进一步训练模型,以适应不同的任务场景和语言风 格,给出更符合人类思维的输出结果。

RLHF的训练包括训练大语言模型、训练奖励模型及RLHF微调三个步骤。首先,需 要使用预训练目标训练一个语言模型,同时也可以使用额外文本进行微调。其次, 基于语言模型训练出奖励模型,对模型生成的文本进行质量标注,由人工标注者按 偏好将文本从最佳到最差进行排名,借此使得奖励模型习得人类对于模型生成文本 序列的偏好。最后利用奖励模型输出的结果,通过强化学习模型微调优化,最终得 到一个更符合人类偏好语言模型。

ChatGPT于2022年11月推出之后,仅用两个月时间月活跃用户数便超过1亿,在短 时间内积累了庞大的用户基数,也是历史上增长最快的消费应用。多模态大模型GPT-4是OpenAI的里程碑之作,是目前最强的文本生成模型。 ChatGPT推出后的三个多月时间里OpenAI就正式推出GPT-4,再次拓宽了大模型的 能力边界。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本),相比 上一代,GPT-4可以更准确地解决难题,具有更广泛的常识和解决问题的能力:更 具创造性和协作性;能够处理超过25000个单词的文本,允许长文内容创建、扩展 对话以及文档搜索和分析等用例。

(1)GPT-4具备更高的准确性及更强的专业性。GPT-4在更复杂、细微的任务处理 上回答更可靠、更有创意,在多类考试测验中以及与其他LLM的benchmark比较中 GPT-4明显表现优异。GPT-4在模拟律师考试GPT-4取得了前10%的好成绩,相比 之下GPT-3.5是后10%;生物学奥赛前1%;美国高考SAT中GPT-4在阅读写作中拿 下710分高分、数学700分(满分800)。

(2)GPT能够处理图像内容,能够识别较为复杂的图片信息并进行解读。GPT-4 突破了纯文字的模态,增加了图像模态的输入,支持用户上传图像,并且具备强大 的图像能力—能够描述内容、解释分析图表、指出图片中的不合理指出或解释梗图。 在OpenAI发布的产品视频中,开发者给GPT-4输入了一张“用VGA电脑接口给 iPhone充电”的图片,GPT-4不仅可以可描述图片,还指出了图片的荒谬之处。

(3)GPT-4可以处理超过25000字的文本。在文本处理上,GPT-4支持输入的文字 上限提升至25000字,允许长文内容创建、扩展对话以及文档搜索和分析等用例。 且GPT-4的多语言处理能力更优,在GPT-4的测评展示中,GPT-4可以解决法语的 物理问题,且在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中, 有24种语言下,GPT-4优于GPT-3.5和其他大语言模型(Chinchilla、PaLM)的英 语语言性能。(4)具备自我训练与预测能力,同时改善幻觉、安全等局限性。GPT-4的一大更新 重点是建立了一个可预测拓展的深度学习栈,使其具备了自我训练及预测能力。同 时,GPT-4在相对于以前的模型已经显著减轻了幻觉问题。在OpenAI的内部对抗性 真实性评估中,GPT-4的得分比最新的GPT-3.5模型高 40%;在安全能力的升级上, GPT-4明显超出ChatGPT和GPT3.5。

OpenAI已正式宣布为第三方开开发者开放ChatGPT API,价格降低加速场景应用 爆发。起初ChatGPT免费向用户开放,以获得用户反馈;今年2月1日,Open AI推 出新的ChatGPT Plus订阅服务,收费方式为每月20美元,订阅者能够因此而获得更 快、更稳定的响应并优先体验新功能。3月2日,OpenAI官方宣布正式开放ChatGPT API(应用程序接口),允许第三方开发者通过API将ChatGPT集成至他们的应用程 序和服务中,价格为1ktokens/$0.002,即每输出100万个单词需要2.7美元,比已有 的GPT-3.5模型价格降低90%。模型价格的降低将推动ChatGPT被集成到更多场景 或应用中,丰富ChatGPT的应用生态,加速多场景应用的爆发。

GPT-4发布后OpenAI把ChatGPT直接升级为GPT-4最新版本,同时开放了GPT-4 的API。ChatGPT Plus付费订阅用户可以获得具有使用上限的GPT-4访问权限(每4 小时100条消息),可以向GPT-4模型发出纯文本请求。用户可以申请使用GPT-4 的API,OpenAI会邀请部分开发者体验,并逐渐扩大邀请范围。该API的定价为每输 入1000个字符(约合750个单词),价格为0.03美元;GPT-4每生成1000个字符价格为 0.06美元。 Office引入GPT-4带来的结果是生产力、创造力的全面跃升。微软今天宣布,其与 OpenAI共同开发的聊天机器人技术Bing Chat正在GPT-4上运行。

Copilot OpenAI发布升级后的GPT-4后,微软重磅发布了GPT-4平台支持的新AI功能, Microsoft 365 Copilot,并将其嵌入Word、PowerPoint、Excel、Teams等Office办 公软件中。Copilot可以在一篇速记的基础上快速生成新闻草稿、并完成草稿润色; 在Excel中完成各种求和、求平均数,做表格、归纳数据、甚至是完成总结提取;在 PPT上可以直接将文稿内容一键生成;在Outlook邮件中自动生成内容、并自由调整 写作风格、插入图表;在Teams中总结视频会议的要点/每个发言人谁说了核心内容, 跟进会议流程和内容,自动生成会议纪要、要点和任务模板。基于GPT-4的Copilot 可以看作是一个办公AI助理,充分发挥出了AI对于办公场景的赋能作用,有望从根 本上改变工作模式并开启新一轮生产力增长浪潮。

参考报告

通信行业专题报告:GPT~4引发新一轮AI算力需求爆发,长期拉动流量基础设施需求.pdf

通信行业专题报告:GPT~4引发新一轮AI算力需求爆发,长期拉动流量基础设施需求。2022年12月,OpenAI推出基于GPT-3.5的新型人工智能聊天机器人ChatGPT,在发布两个月后拥有1亿用户,成为史上用户增长最快的应用;美东时间2023年3月14日,ChatGPT的开发机构OpenAI正式推出多模态大模型GPT-4,再次拓宽了大模型的能力边界。多模态大模型GPT-4是OpenAI的里程碑之作,是目前最强的文本生成模型。GPT-4是一个多模态大模型(接受图像和文本输入,生成文本),相比上一代,GPT-4具有更广泛的常识和解决问题的能力,更具创造性和协作性,可以更准确地解决难题,处理超...

查看详情
相关报告
我来回答