我们分 析,ChatGPT 能够如此迅速火遍全球,主要得益于:1)ChatGPT 长期积累的技术优 势;2)公司大胆尝试得到市场认可; 3)科技巨头纷纷躬身入局,释放重视信号; 4)大趋势上,AIGC 行业逐渐成熟。
1、技术上,多轮迭代训练后已具备先发优势
由 OpenAI 公司推出的 ChatGPT 在正式面世之前,GPT 家族已有三个基于 Transformer 技术的自然语言处理模型,分别为 GPT-1/2/3,模型每迭代一次,参数量都在几何式 增长,从最初的 1.17 亿增加到第三代的 1750 亿,GPT-3 已成为全球最大的语言模型之 一。ChatGPT 使用的 GPT-3.5 模型是在 GPT-3 的基础上加入 Reinforcement Learning from Human Feedback(RLHF,人类反馈强化学习)技术和近段策略优化算法,其目的是从 真实性、无害性和有用性三个方面优化输出结果,降低预训练模型生成种族歧视、性 别歧视等有害内容的风险。 ChatGPT 训练的过程主要有三个阶段。
第一步是训练监督策略,人类标注员对随机抽取的提示提供预期结果,用监督学习的 形式微调 GPT-3.5,生成 Supervised Fine-Tuning(SFT)模型,使 GPT-3.5 初步理解指 令,这一步与先前的 GPT-3 模型训练方式相同,类似于老师为学生提供标答的过程。第二步是奖励模型,在 SFT 模型中随机抽取提示并生成数个结果,由人类标注员对结 果的匹配程度进行排序,再将问题与结果配对成数据对输入奖励模型进行打分训练, 这个步骤类似于学生模拟标答写出自己的答案,老师再对每个答案进行评分。
第三步是 Proximal Policy Optimization(PPO,近段策略优化),也是 ChatGPT 最突出 的升级。模型通过第二步的打分机制,对 SFT 模型内数据进行训练,自动优化迭代, 提高 ChatGPT 输出结果的质量,即是学生根据老师反馈的评分,对自己的作答进行修 改,使答案更接近高分标准。 简而言之,我们分析,ChatGPT 的优势在于,1)使用 1750 万亿参数的 GPT-3 为底层 模型进行预训练,为全球最大的语言模型之一;2)算力上得到微软支持,使用上万 片 NVIDIA A100 GPU 进行训练,模型的运行速度得到保障;3)算法上使用奖励模型和 近端优化策略进行迭代优化, 将输出结果与人类预期答案对齐,减少有害性、歧视性 答案,使 ChatGPT 更拟人化,让用户感觉沟通的过程更流畅。
2、管理上,OpenAI管理结构更为灵活,为大胆创新奠定了基础
在 ChatGPT 上线之前,许多科技公司也在培育 AI 语言模型。如 Google 一直训练的 LaMDA 模型,在 2020 年开始训练,初代于 2021 年 5 月公布,但由于模型与谷歌的广 告业务发展方向无法匹配,迟迟未推出。该模型使用 1370 亿参数,1.56 万亿单词量, 是 ChatGPT 的 5 倍。去年夏季曾传出新闻,Google 工程师因为认为 LaMDA 具有独立 思想而被开除;CEO 桑达·皮查伊明确表示,公司将秉持对 AI 的原则(产品有益于社 会发展、安全可靠、对人负责等)以及对信息完整度的最高标准来研发和开放 AI 产 品,Google 不同于其他初创公司,不能承担 AI 犯下的错误对公司的信誉和其他倍受信 赖的产品造成的影响,Google 对于 AI 产品的研发和开放持有十分谨慎的态度。

既没有上市,也没有盈利目标的 OpenAI 则显得更为进取。ChatGPT 的前身 GPT-3 模型 于 2020 年发布,在此模型基础上,公司加入 RLHF 训练和 PPO,培育出 GPT-3.5 模型, 该模型对应的 InstructGPT 在 2021 年 1 月开始内测,于 2022 年初对外公布,兄弟版 ChatGPT 在 2022 年 11 月末正式推出,即 GPT-3. 5 模型从灰测到对外公布仅用时不到 2 年。公司能够快速且大胆推出 ChatGPT,除了基于 ChatGPT 本身的优越性能,也是为 GPT-4 收集更多公开对话数据,继续扩大可用参数规模。尽管 ChatGPT 仍有明显缺 陷,在推出后屡现 “胡说八道”的情况,且面对复杂的数理化问题无法提供正确答案, 但瑕不掩瑜,用户对于这位先行者的错误结果展现出更多包容,相比之下,Google 于 2 月 6 日推出的 AI 对话机器人 Bard 由于答案出错,公司当日股价一泻千里。
占据先发优势的 ChatGPT 在面世后迅速风靡各行各业。据 Study.com 对超过 1 千名大 学生调查显示,已有 89%的学生使用 ChatGPT 辅助完成作业,48%的学生在做居家测 验时使用 ChatGPT,53%的学生将其用于写论文,22%的学生用于写论文框架;除了教 育行业,广告从业人员、网文写手、探店博主等都在尝试使用 ChatGPT 辅助撰写软文 和稿件。企业方面,微软已宣布将 ChatGPT 嵌入必应搜索引擎,未来会陆续整合进 Windows 系列产品、Teams 和云服务;奢侈品电商寺库和美国著名媒体公司 BuzzFeed 于近期宣布与 ChatGPT 开展业务合作;亚马逊员工也在 Slack 表示已经将 ChatGPT 应 用在多种工作职能中,但目前律师警告员工勿将公司机密信息告诉 ChatGPT。
3、科技巨头躬身入局,发布重视信号
在 ChatGPT 对外公布并成为全球热点之前,微软公司早在 2019 年已经投资 10 亿美元 成为 OpenAI 的金主之一,并在 2020 年 GPT-3 发布时获得独家授权访问底层代码,将 API 整合到微软的产品和服务中。此次 ChatGPT 走红,微软继续加码 100 亿美元投资。 作为 AI 和搜索引擎两个领域的领军企业,Google 在 12 月 21 日发出红色警告,表示类 ChatGPT 聊天机器人将会颠覆搜索引擎行业,对 Google 的广告业务带来重创,随后于 2 月初,Google 宣布投资 4 亿美元在 OpenAI 的竞对公司 Anthropic,并推出 AI 聊天机 器人 Bard,紧跟热潮。国内同样可见科技巨头如百度、阿里和京东等纷纷宣布打造类 ChatGPT 产品,加速布局 AIGC 产业。
OpenAI: ChatGPT 使用的 GPT-3.5 模型,是由基于 1750 亿参数的 GPT-3 迭代而来。据悉,GPT-3 模型中的世界知识来自 3000 亿单词的训练语料库,其中 60%来自于 2016 至 2019 年的 C4 语料库,22% 来自于 WebText2(WebText 是由 OpenAI 收集 Reddit 网站内 3 分以上 的回答整理而来的数据集,截止至 2017 年 12 月共汇总 8,013,769 份文件,规模达到 40GB,而 WebText2 是在 WebText 的基础上继续更新数据至 2020 年 4 月,且包含所 有语言的回答),16% 来自于书本以及 3%来自于维基百科。GPT-3.5 是在 GPT-3 这个 预训练大型语言模型的基础上进行代码训练和指引微调迭代的模型,由于 GPT-3.5 目 前没有接入互联网,模型内的数据更新截止至 2021 年。

Google: Google 紧跟 OpenAI 推出的 Bard AI 对话机器人,使用了 LaMDA 模型。该模型使用 1370 亿参数,主要训练分为两个阶段。在预训练阶段使用的数据集由 1.56 万亿单词组成, 后续将这些单词整理成 2.81T 个令牌的数据库进行训练,数据主要来源是公开的网络 文件。训练的第二阶段是微调,也是 LaMDA 作为开源模型比 GPT-3. 5 更有优势的一 点。LaMDA 的微调包括两个方面,1)对生成文本进行性能安全和质量评估,主要观 察 SSI 三个方面,分别是合理性(Sensible)、针对性(Specific)以及趣味性 (Interesting);2)对生成文本进行外部信息检索,通过学习外部知识,使回答更尽 可能不违背事实。第二项微调对比 ChatGPT(数据更新截止至 2021 年),LaMDA 获取 的数据量更大,为用户提供最新的信息回复。在算力上,LaMDA 主要使用 Google 自 研 TPU v3 芯片集群。
除了 LaMDA 之外,Google 于 2022 年 4 月推出另一大型语言模型 PaLM,规模达到 5400 亿参数,使用的芯片是自研 TPU 最新版 v4。TPU v4 芯片主要与集群相连应用,每一个 集群中包含 4096 枚芯片,运行速度可以达到百亿亿次每秒,在测试训练语言模型 BERT 时,同样数量的 TPU v4 对比 NVIDIA A100,TPU v4 的速度提升了 1. 15 倍。在训 练 PaLM 时,Google 使用了两个 TPU v4 集群。 由于 Google 的 LaMDA 和 PaLM 模型目前暂未全面开放,公司没有公布模型训练和使 用的成本。
Meta: Meta 的开源 AI 对话机器人 Blenderbot 初代于 2020 年公布,参数规模为 94 亿,是当 时市面上最大系统的 3.6 倍,经过两代更迭,Meta 在 2022 年 8 月推出 Blenderbot3, 共 3 个参数版本,最大规模达到 1750 亿,预训练数据集包括 180B 个令牌,数据主要 来自于 RoBERTa 的训练数据集、CC100 的英文数据集、Pushshift.io Reddit 和 The Pile 数 据集。除了对数据集进行预训练,Blenderbot3 的主要改进是持续学习计划。在微调的 过程中,模型会同时开展对外搜索和对内索取长期记忆,将信息整合输出回答。在答 复发出之后,用户可以点赞或点反对,Blenderbot3 会继续跟进用户反馈生成新的对 话,继而收集资料对模型进行微调优化。
据资料显示,Blenderbot3 在训练时使用了 128 张 40gb 的 NVIDIA A100 芯片,推出后仅在美国上线,且只有 30 亿和 300 亿参数 规模的两个小模型对外开放,1750 亿参数的模型需要额外提交申请方可使用。
Amazon: Amazon 推出的大规模多语言模型 Alexa TM 主要用于提升语音助手 Alexa 的服务,该 模型的参数规模只有 200 亿,采用 seq2seq(串行到串行)的编码器-解码器架构,主 要用于多语言翻译和生成文本摘要。经测试,包括了编码器架构的 Alexa TM 在文本摘 要和语言翻译的效果明显优于只有解码器架构的 GPT-3 和 PaLM。作为世界头部云厂 商,Amazon 更多发力在自研芯片和处理器,在 2022 年举行的云科技 re:Invent 全球 大会上,Amazon 公布了 3 款新芯片及对应的弹性云计算应用实例。其中 Inferentia2 高 性能机器学习推理芯片是为运行 1750 亿参数规模的大型语言模型而生,相比前一代 Inf1 提高 3 倍计算性能,运算速度达到 2.3 千万亿次/秒,对比基于 GPU 的同类应用实 例,搭载了 Inf2 的实例吞吐量提高 2.3 倍,成本降低 70%。