OpenAI GPT系列模型开发进程、创新及商业模式分析

提问时间：2023/10/25
浏览次数：275
提问者：匿名用户
举报
分享微信 QQ 微博

标签

OpenAI

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2023/10/25 17:13

多模态大模型GPT-4是OpenAI公司GPT系列最新一代模型。

美国OpenAI公司成立于2015年12月，是全球顶级的人工智能研究机构之一，创始人包括Elon Musk、著名投资者Sam Altman、支付服务PayPal创始人Peter Thiel等人。 OpenAI作为人工智能领域的革命者，成立至今开发出多款人工智能产品。2016年， OpenAI推出了用于强化学习研究的工具集OpenAI Gym；同时推出开源平台OpenAI Universe，用于测试和评估智能代理机器人在各类环境中的表现。2019年，OpenAI 发布了GPT-2模型，可根据输入文本自动生成语言，展现出人工智能创造性思维的能力；2020年更新了GPT-3语言模型，并在其基础上发布了OpenAI Codex模型，该模型可以自动生成完整有效的程序代码。

2021年1月，OpenAI发布了OpenAI CLIP，用于进行图像和文本的识别分类；同时推出全新产品DALL-E，该模型可以根据文字描述自动生成对应的图片，2022年更新的DALL-E2更是全方位改进了生成图片的质量，获得了广泛好评。 2022年12月，OpenAI推出基于GPT-3.5的新型AI聊天机器人ChatGPT，在发布进两个月后拥有1亿用户，成为史上用户增长最快的应用；美东时间2023年3月14日， ChatGPT的开发机构OpenAI正式推出多模态大模型GPT-4。

GPT（General Pre-Training）系列模型即通用预训练语言模型，是一种利用 Transformer作为特征抽取器，基于深度学习技术的自然语言处理模型。 GPT系列模型由OpenAI公司开发，经历了长达五年时间的发展：（1）其最早的产品GPT模型于2018年6月发布，该模型可以根据给定的文本序列进行预测下一个单词或句子，充分证明通过对语言模型进行生成性预训练可以有效减轻NLP任务中对于监督学习的依赖；（2）2019年2月GPT-2模型发布，该模型取消了原GPT模型中的微调阶段，变为无监督模型，同时，GPT-2采用更大的训练集尝试zero-shot学习，通过采用多任务模型的方式使其在面对不同任务时都能拥有更强的理解能力和较高的适配性；

（3）GPT-3模型于2020年6月被发布，它在多项自然语言处理任务上取得了惊人的表现，并被认为是迄今为止最先进的自然语言处理模型之一。GPT-3训练使用的数据集为多种高质量数据集的混合，一次保证了训练质量；同时，该模型在下游训练时用Few-shot取代了GPT-2模型使用的zero-shot，即在执行任务时给予少量样例，以此提高准确度；除此之外，它在前两个模型的基础上引入了新的技术——“零样本学习”，即GPT-3即便没有对特定的任务进行训练也可以完成相应的任务，这使得GPT-3面对陌生语境时具有更好的灵活性和适应性。

（4）2022年11月，OpenAI发布GPT-3.5模型，是由GPT-3微调出来的版本，采用不同的训练方式，其功能更加强大。基于GPT-3.5模型，并加上人类反馈强化学习（RLHF）发布ChatGPT应用，ChatGPT的全称为Chat Generative Pre-trained Transformer，是建立在大型语言模型基础上的对话式自然语言处理工具，表现形式是一种聊天机器人程序，能够学习及理解人类的语言，根据聊天的上下文进行互动，甚至能够完成翻译、编程、撰写论文、编辑邮件等功能。（5）2023年3月，OpenAI正式发布大型多模态模型GPT-4（输入图像和文本，输出文本输出），此前主要支持文本，现模型能支持识别和理解图像。

由于OpenAI并没有提供关于GPT-4用于训练的数据、算力成本、训练方法、架构等细节，故我们本章主要讨论ChatGPT模型的技术路径。 ChatGPT模型从算法分来上来讲属于生成式大规模语言模型，底层技术包括 Transformer架构、有监督微调训练、RLHF强化学习等，ChatGPT通过底层技术的叠加，实现了组合式的创新。 GPT模型采用了由Google提出的Transformer架构。Transformer架构采用自注意力机制的序列到序列模型，是目前在自然语言处理任务中最常用的神经网络架构之一。相比于传统的循环神经网络（RNN）或卷积神经网络（CNN），Transformer 没有显式的时间或空间结构，因此可以高效地进行并行计算，并且Transformer具有更好的并行化能力和更强的长序列数据处理能力。

ChatGPT模型采用了“预训练+微调”的半监督学习的方式进行训练。第一阶段是 Pre-Training阶段，通过预训练的语言模型（Pretrained Language Model），从大规模的文本中提取训练数据，并通过深度神经网络进行处理和学习，进而根据上下文预测生成下一个单词或者短语，从而生成流畅的语言文本；第二阶段是Fine-tuning 阶段，将已经完成预训练的GPT模型应用到特定任务上，并通过少量的有标注的数据来调整模型的参数，以提高模型在该任务上的表现。

ChatGPT在训练中使用了RLHF人类反馈强化学习模型，是GPT-3模型经过升级并增加对话功能后的最新版本。2022年3月，OpenAI发布InstructGPT，这一版本是 GPT-3模型的升级版本。相较于之前版本的GPT模型，InstructGPT引入了基于人类反馈的强化学习技术（Reinforcement Learning with Human Feedback，RLHF），对模型进行微调，通过奖励机制进一步训练模型，以适应不同的任务场景和语言风格，给出更符合人类思维的输出结果。

RLHF的训练包括训练大语言模型、训练奖励模型及RLHF微调三个步骤。首先，需要使用预训练目标训练一个语言模型，同时也可以使用额外文本进行微调。其次，基于语言模型训练出奖励模型，对模型生成的文本进行质量标注，由人工标注者按偏好将文本从最佳到最差进行排名，借此使得奖励模型习得人类对于模型生成文本序列的偏好。最后利用奖励模型输出的结果，通过强化学习模型微调优化，最终得到一个更符合人类偏好语言模型。

ChatGPT于2022年11月推出之后，仅用两个月时间月活跃用户数便超过1亿，在短时间内积累了庞大的用户基数，也是历史上增长最快的消费应用。多模态大模型GPT-4是OpenAI的里程碑之作，是目前最强的文本生成模型。 ChatGPT推出后的三个多月时间里OpenAI就正式推出GPT-4，再次拓宽了大模型的能力边界。GPT-4是一个多模态大模型（接受图像和文本输入，生成文本），相比上一代，GPT-4可以更准确地解决难题，具有更广泛的常识和解决问题的能力：更具创造性和协作性；能够处理超过25000个单词的文本，允许长文内容创建、扩展对话以及文档搜索和分析等用例。

（1）GPT-4具备更高的准确性及更强的专业性。GPT-4在更复杂、细微的任务处理上回答更可靠、更有创意，在多类考试测验中以及与其他LLM的benchmark比较中 GPT-4明显表现优异。GPT-4在模拟律师考试GPT-4取得了前10%的好成绩，相比之下GPT-3.5是后10%；生物学奥赛前1%；美国高考SAT中GPT-4在阅读写作中拿下710分高分、数学700分（满分800）。

（2）GPT能够处理图像内容，能够识别较为复杂的图片信息并进行解读。GPT-4 突破了纯文字的模态，增加了图像模态的输入，支持用户上传图像，并且具备强大的图像能力—能够描述内容、解释分析图表、指出图片中的不合理指出或解释梗图。在OpenAI发布的产品视频中，开发者给GPT-4输入了一张“用VGA电脑接口给 iPhone充电”的图片，GPT-4不仅可以可描述图片，还指出了图片的荒谬之处。

（3）GPT-4可以处理超过25000字的文本。在文本处理上，GPT-4支持输入的文字上限提升至25000字，允许长文内容创建、扩展对话以及文档搜索和分析等用例。且GPT-4的多语言处理能力更优，在GPT-4的测评展示中，GPT-4可以解决法语的物理问题，且在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中，有24种语言下，GPT-4优于GPT-3.5和其他大语言模型（Chinchilla、PaLM）的英语语言性能。（4）具备自我训练与预测能力，同时改善幻觉、安全等局限性。GPT-4的一大更新重点是建立了一个可预测拓展的深度学习栈，使其具备了自我训练及预测能力。同时，GPT-4在相对于以前的模型已经显著减轻了幻觉问题。在OpenAI的内部对抗性真实性评估中，GPT-4的得分比最新的GPT-3.5模型高 40%；在安全能力的升级上， GPT-4明显超出ChatGPT和GPT3.5。

OpenAI已正式宣布为第三方开开发者开放ChatGPT API，价格降低加速场景应用爆发。起初ChatGPT免费向用户开放，以获得用户反馈；今年2月1日，Open AI推出新的ChatGPT Plus订阅服务，收费方式为每月20美元，订阅者能够因此而获得更快、更稳定的响应并优先体验新功能。3月2日，OpenAI官方宣布正式开放ChatGPT API（应用程序接口），允许第三方开发者通过API将ChatGPT集成至他们的应用程序和服务中，价格为1ktokens/$0.002，即每输出100万个单词需要2.7美元，比已有的GPT-3.5模型价格降低90%。模型价格的降低将推动ChatGPT被集成到更多场景或应用中，丰富ChatGPT的应用生态，加速多场景应用的爆发。

GPT-4发布后OpenAI把ChatGPT直接升级为GPT-4最新版本，同时开放了GPT-4 的API。ChatGPT Plus付费订阅用户可以获得具有使用上限的GPT-4访问权限（每4 小时100条消息），可以向GPT-4模型发出纯文本请求。用户可以申请使用GPT-4 的API，OpenAI会邀请部分开发者体验，并逐渐扩大邀请范围。该API的定价为每输入1000个字符(约合750个单词)，价格为0.03美元；GPT-4每生成1000个字符价格为 0.06美元。 Office引入GPT-4带来的结果是生产力、创造力的全面跃升。微软今天宣布，其与 OpenAI共同开发的聊天机器人技术Bing Chat正在GPT-4上运行。

Copilot OpenAI发布升级后的GPT-4后，微软重磅发布了GPT-4平台支持的新AI功能， Microsoft 365 Copilot，并将其嵌入Word、PowerPoint、Excel、Teams等Office办公软件中。Copilot可以在一篇速记的基础上快速生成新闻草稿、并完成草稿润色；在Excel中完成各种求和、求平均数，做表格、归纳数据、甚至是完成总结提取；在 PPT上可以直接将文稿内容一键生成；在Outlook邮件中自动生成内容、并自由调整写作风格、插入图表；在Teams中总结视频会议的要点/每个发言人谁说了核心内容，跟进会议流程和内容，自动生成会议纪要、要点和任务模板。基于GPT-4的Copilot 可以看作是一个办公AI助理，充分发挥出了AI对于办公场景的赋能作用，有望从根本上改变工作模式并开启新一轮生产力增长浪潮。

参考报告

通信行业专题报告：GPT~4引发新一轮AI算力需求爆发，长期拉动流量基础设施需求.pdf

通信行业专题报告：GPT~4引发新一轮AI算力需求爆发，长期拉动流量基础设施需求。2022年12月，OpenAI推出基于GPT-3.5的新型人工智能聊天机器人ChatGPT，在发布两个月后拥有1亿用户，成为史上用户增长最快的应用；美东时间2023年3月14日，ChatGPT的开发机构OpenAI正式推出多模态大模型GPT-4，再次拓宽了大模型的能力边界。多模态大模型GPT-4是OpenAI的里程碑之作，是目前最强的文本生成模型。GPT-4是一个多模态大模型（接受图像和文本输入，生成文本），相比上一代，GPT-4具有更广泛的常识和解决问题的能力，更具创造性和协作性，可以更准确地解决难题，处理超...

查看详情

OpenAI GPT系列模型开发进程、创新及商业模式分析

通信行业专题报告：GPT~4引发新一轮AI算力需求爆发，长期拉动流量基础设施需求.pdf

OpenAI经营看点在哪？

OpenAI算力建设、需求与财务分析

OpenAI o3与o4-mini核心看点在哪？

OpenAI Operator智能体看点在哪？

Openai发布会梳理

OpenAI发布会深度总结

OpenAI o1能给AI带来什么？

OpenAI模型进展如何？

OpenAI Sora亮点在哪？

OpenAI用户市场空间及成本分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王