全球科技巨头争相布局,AI 技术成果不断涌现。
1. Open AI
1.1. GPT 系列
GPT 系列采用“预训练+微调”训练策略,目前已在 AI 领域获广泛 应用。GPT 系列采用了 Hinton 等人在 2006 年提出的一种自然语言处理 模型 Transformer 的 decoder 部分,并采用了一种经典的神经网络训练 策略:“预训练+微调”的训练策略。在预训练阶段,基于庞大的无标签 文本语料库训练一个生成式语言模型,从而获得对于语言的深层次理解; 在微调阶段,使用后续数据继续训练模型,以应对不同的运用场景。 ChatGPT 系列功能强大,目前已成为最被大众所熟知与认可的 AI 聊天机 器人,同时许多科技公司陆续开展了跟进项目,与 ChatGPT 系列进行深 度融合,令 GPT 系列成为目前 AI 领域的发动机与方向盘。
GPT 系列的第一个模型 GPT-1 于 2018 年 6 月发布,它使用了一个 12-layer 的 Transformer 解码器,并进行了一个包含 4500 万词条的书 籍语料库进行预训练,此时只能完成一些基本的自然语言处理任务,如 文本生成,分类和语言翻译功能。;2019 年 2 月,Open AI 发布了 GPT 系列的第二个模型 GPT-2,在沿用一代网络结构设计的基础上,升级了 模型参数和数据集的规模,并使用了一个 24-layer 的 Transformer 解 码器,相比前代,GPT-2 最大的进步在于可以生成更加连贯、流畅、逻 辑性更强的文本结果,甚至可以根据对话者的要求修改自己的回答文本 风格。2020 年 5 月,GPT-3 正式推出,GPT-3 拥有着前所未有的 1750 亿个参数量级的 Transformer 解码器,并在一个包含 5700 亿词条的多 源文本语料库上进行了预训练。GPT-3 的能力已经可以做到以人类的流 利程度撰写散文,其生产的文本质量之高,让 31 名 Open AI 研究人员 在 GPT-3 2020 年 5 月 28 日的原始论文中强调了 GPT-3 的潜在风险。2020 年 9 月 22 日,微软宣布获得 GPT-3 的“独家”使用权;其他人仍可以 使用公共 API 获取输出,但只有微软能够访问 GPT-3 的底层模型。
GPT 系列高速迭代,GPT 3.5、GPT 4 及 ChatGPT 插件先后发布推动 人工智能高速发展。2022 年至今,GPT 系列进入高速迭代期。2022 年 1 月,Open AI 宣布 GPT-3.5 诞生,它是基于 GPT-3 迭代后的微调版本, 也被称为 InstructGPT,GPT-3.5 相比前代,加入了人类反馈强化学习 (RLHF)的概念,在人类反馈强化学习下,人类向机器学习算法提供反 馈,这些反馈可以用于调整模型。这种方法可以解决监督和非监督学习的局限性,即机器学习算法从仅标记或未标记的数据中学习的能力有限。 2022年11月,Open AI正式发布ChatGPT,它是一款建立在GPT系列(LLM) 的基础之上的 AI 聊天机器人,并进一步强化了 RLHF 的作用:从用户的 问答中收集数据,从而更好地训练和微调 ChatGPT 本身。与前身 InstructGPT 相比,ChatGPT 有害性和欺骗性的回应概率被大幅降低, 令搭载了 GPT-3.5 的 ChatGPT 成为 AI 领域最成功的产品。 2023 年 3 月 14 日,GPT-4 横空出世,是 Open AI 扩大深度学习成 果的一项里程碑式的杰作。GPT-4 是一款大型的多模态模型(接受图像 和文本输入,发出文本输出),其最大的进步在于,GPT-4 相比 GPT-3.5, 能够表现得更可靠,回答更有创造力,并且能够产出更细致的回答,具 体来说:1.GPT-4 大幅提高了应对专业学术考试的表现,如通过了模拟 律师考试,并且成绩排在考生前 10%;2.跨语言 MMLU 的识别精度提升; 3.视觉输入能力的加入,从此 ChatGPT 也可以额接受图像的输入并生成 回答。Open AI以极高地速度迭代优化GPT系列。短期内接连发布的GPT-4 和 ChatGPT Plugins,推动这 AI 领域飞速发展并进一步打开潜在的应用 空间。

GPT-4 参数规模达到 GPT-3 的 6 倍以上,不同领域的熟练程度超越 人 类 表 现 。 基 于 微 软 发 布 的 《 Sparks of Artificial General Intelligence: Early experiments with GPT-4》报告,从推理、规划、 解决问题、抽象思维、理解复杂思想、快速学习和经验学习能力等角度 足以发现,GPT-4 相较历代具有显著进步。从参数规模上来看,GPT-4 有超过 1 万亿个参数,是 GPT-3(1750 亿个参数)的 6 倍以上,根据预 测,以这个速度继续发展下去,或许在 5 年之内,GPT 系列就能达到甚 至超过人类大脑的规模(170 万亿个参数)。 除此之外,微软具体测试了 GPT-4 在语言、数学、编程、视觉、医 学、法律和心理学领域的表现水平,结果演示,GPT-4 已经有超越人类 水平的表现。GPT-4 能够在不同领域表现出高度熟练程度,理解复杂概 念,并将多个领域的技能和概念统一起来。研究结果表明,GPT-4 不仅能学习不同领域和风格的通用原则和模式,还能以创造性的方式将其结 合。
2023 年 3 月 23 日,Open AI 再次带来了 ChatGPT 的重量级更新— —ChatGPT Plugins,它是的 ChatGPT 通过 Open AI 插件可以连接到第 三方应用程序,使得 ChatGPT 在某一具体领域的功能被大幅增强,并且 被允许执 行更广泛 的操作 。目前 解锁的官 方插件 有:Expedia, FiscalNote, Instacart, KAYAK, Klarna, Milo, OpenTable, Shopify, Slack, Speak, Wolfram, and Zapier。以 Expedia 和 Wolfram 为例, 加载 Expedia 后,ChatGPT 在为用户生成旅行计划后,可以直接通过 Expedia 进行预订机票、酒店行为;加载 Wolfram 后,ChatGPT 近期饱 受诟病的复杂数学问题解决能力将被大幅提升。
ChatGPT 目前也仍存在一定的风险和问题,例如有害的建议,错误 的代码提示或者是不准确的信息,而目前 Open AI 的做法是:在 RLHF 训练过程中加入额外的安全奖励信号,通过训练模型拒绝此类内容的请 求来减少有害信息的输出。截止目前,除 ChatGPT 本身的功能,大量的 科技公司也开发了新的 AI 技术,如 Adobe Firefly,Microsoft 365Copilot,与 GPT 系列深度融合,从办公,设计,绘画领域,开启了一 场史无前例的生产力革命。GPT 系列,无疑将成为当前时代一切领域发 动机。
1.2. Codex 系列
Codex 是一款 NLP 模型,定位弥补 GPT-3 代码生成缺陷。Codex 最 初的设计理念,是作为弥补 GPT-3 在代码生成方面的不足而开发的另一 款 NLP 模型。借助 Codex,即使是非专业的程序员,也可以轻松编写代 码,这大大降低了编写程序的门槛。随着后续的发展,Coedex 迭代为了 微软 365 Copilot,不仅能作为编程助手,更加入了微软办公软件助手 功能,从而极大地提高了当前办公效率,或将在不久后引发一场世界范 围的办公室革命。 2021 年 6 月,基于早期 Codex 的早期版本和原型,Open AI 与 GitHub 合作推出了 GitHub Copilot,作为一款 AI 技术下的代码补全工具,以 技术预览的形式暂时向公众开放。2021 年 8 月,Open AI 正式发布了 Codex,宣布了这一款全新的高效编程助手模型,Codex 专注于优化 GPT 系列在程序设计和代码生成上的不足,根据用户输入的文本 prompt 提 供编程建议,从而帮助开发者更好地编写代码。
2. 谷歌
2.1. Bard 聊天机器人
谷歌内测 Bard,提供自然语言问答服务。为了与 Open AI 的 ChatGPT 抗衡,谷歌在 3 月 21 向一部分内测用户推出了一款实验性、对话式的 聊天 AI 服务——Bard,相比于 ChatGPT,Bard 使用更轻量级的 LaMDA 模型和互联网语料库提供自然语言问答服务。 根据谷歌官方,Bard 是一款与 ChatGPT 相当的,富有智慧的 AI 聊 天机器人,但 Bard 的使用体验未达预期,这主要表现在回答的准确性 上。例如,在一次演示中,Bard 针对于用户对于詹姆斯·韦伯太空望远 镜(JWST)的问题,提供了相距事实甚远的信息。与此同时,Bard 也有 一些比较明显的优点,比如 Bard 会主动提醒用户,自己目前还比较容 易犯错误,并且 Bard 在和用户的问答中,会提供相比 ChatGPT 而言, 更为温和的回答。除此之外,谷歌官方表示,Bard 在语音理解能力和上 下文敏感性都相比 ChatGPT 将有很大程度的提升,因为从原理上,LaMDA 生成器首先在给定当前多轮对话上下文的情况下生成多个候选响应, LaMDA 分类器预测每个候选响应的 SSI 和安全分数,从而给出更高质 量的回答。尽管 Bard 和 ChatGPT 在一些性能上的表现各有优劣,但是 二者仍然在 AI 聊天服务上旗鼓相当,期待 Bard 正式发布后的持续进化 及后续表现。
2.2. Bert 预训练模型
Bert 技术内核与 GPT 系列相似,但 NLP 处理任务性能上存在差距。 Bert 是谷歌于 2018 年 10 月发布的一款 NLP 预训练模型,它的技术内核 与 GPT 系列非常相似。它同样采用了谷歌在 2017 年提出的 Transformer 架构,并使用了与训练和微调的方法,使得 Bert 能够在处理文本时同 时考虑上下文信息,从而生成更丰富、准确的自然语言。BERT 的发布改 变了自然语言处理的领域,刷新了多项 NLP 任务的性能记录,如文本分 类、命名实体识别和问答系统等。GPT 系列模型确实借鉴了 Bert 的一些 关键思路,基于 Transformer 架构的预训练加微调模型,但是它们在处 理文本的方向性上和预训练使用的任务上具有显著差异,这导致了它们 在 NLP 处理任务的性能上最终还是存在较大差别。
2.3. DeepMind 实验室
DeepMind AI 实验室被谷歌收购,专注于医疗健康与策略游戏应用。 DeepMind 是一家成立于 2010 年,专注于 AI 领域的实验室,并于 2014 年被谷歌收购,在这十年的发展中,它的研究主要集中于医疗健康与策 略游戏上,并产出了许多优秀的 AI 程序:1)AlphaGo: DeepMind 于 2016 年推出的 AlphaGo 是一款革命性的围棋 AI 程序。它运用先进的 强化学习和蒙特卡洛树搜索算法,成为了首个击败人类围棋世界冠军的 计算机程序。AlphaGo 在 2016 与围棋大师李世石的对弈胜利被认为是 AI 领域的一个里程碑式的事件。2)AlphaZero:继 AlphaGo 成功之后, DeepMind 在 2017 年推出了 AlphaZero,一种具有更广泛应用范围的 强化学习算法。AlphaZero 能够在无需输入任何资料的情况下,仅通过 不断进行自我对弈,就可以成为国际象棋、围棋和将棋等游戏的顶级选 手。仅用几小时的学习时间,AlphaZero 便能精通这些游戏。3) AlphaStar:2019 年,DeepMind 推出了 AlphaStar,一款基于强化学 习的实时战略游戏《星际争霸 II》AI 系统。AlphaStar 通过大量自我 对弈,掌握了高级游戏策略,并在与人类选手的对战中表现出了卓越的 战术素养。AlphaStar 是首个成功击败人类职业选手的《星际争霸 II》 AI。4)AlphaFold:DeepMind 于 2020 年发布了 AlphaFold,一款旨在预测蛋白质三维结构的 AI 系统。AlphaFold 运用深度学习算法,为 研究人员提供了更快速且准确的蛋白质结构预测方法。这一科技突破被 认为是近年来生物学领域最具影响力的进展之一,为生物学研究和药物 开发领域带来了巨大潜力。2021,DeepMind 发布了该系列的第二代: AlphaFold 2,它的性能相比前代在效率和预测性上有着突出的优势, 可在几分钟内破译一般蛋白质的三维结构,还可以预测一个由 2180 个 氨基酸相连的大蛋白质的结构。
3. 脸书(Meta)
FAIR 为 Meta 旗下 AI 研究部门,开发 AI 计算机及 LLaMA 大型语言 模型。Facebook AI(FAIR,现更名为 Meta AI)于 2013 年正式成立, 是 Meta 旗下的核心的 AI 研究部门,它致力于运用 AI 技术,包括计算 机视觉、自然语言处理(NLP)、语音识别、机器学习、强化学习、机器 人学等多个方面,为 Facebook 产品提供支持。2014 年,在 FAIR 研究结 果帮助下,Facebook 推出了一款基于深度学习的人脸识别系统: DeepFace,在当时的准确率就已经高达 97.35%,甚至高于人类对于人脸 的识别能力。2015 年,FAIR 发布了一款虚拟助手:M,这是一款早期的 非常早期的 AI 聊天程序,由于 M 在准确性和识别性上的性能不高,在 2018 年该项目最终停止运营。2017-2018 年,为了更好地对 Facebook 用户数据进行分析和审核,FAIR 分别推出了 DeepText 自然语言处理引 擎和 Rosetta 计算机视觉系统,使得 Facebook 在新闻推送,评论排序 和内容审核上的能力大幅提高。2019 年,FAIR 正式发布了一款面向研 究人员的预训练模型:PyTorch Hub,PyTorch 早在 2016 其实已经基本 开发成型,并在后续研究过程中不断完善。PyTorch 的设计灵活、易于 使用,支持动态计算图,让开发人员能够更容易地构建、调试和优化神 经网络模型。2020 年,FAIR 发布了一款开放领域聊天机器人:Blender, 同样是基于预训练加微调的方法,但是在对话质量上仍然与 ChatGPT 有 着较大差距,这主要是源于优化目标(Blender 的开发目标是实现连贯 有趣的对话)、模型架构(没有使用更加先进的 Transformer 架构)和 训练数据规模上的差别。2022 年,FAIR 建造了一台带有新型 AI 研究超级集群(RSC)AI 超级计算机,Meta 表示,在彻底建成后,它将成为世 界上计算速度最快的超级计算机。
2023 年,FAIR 公开了一个名为 LLaMA(Large Language Model Meta AI)的大型语言模型,并对其进行了开源,该模型具有 650 亿个参数,。 与其他大型语言模型相比,LLaMA 更小、更高效、更节省资源,并且广 泛可用于许多不同的实例,而不是针对特定任务对模型进行微调,但同 时,它的参数级别也明显更低,在回答的准确性上还有待提升。
4. 苹果
4.1. 虚拟助手 Siri
虚拟助手 Siri 是苹果代表性的 AI 成果。2011 年,Siri 随着 iPhone 4s 的推出被一同发布,并在后续被迅速整合到苹果旗下的其他产品中。 Siri 是一款整合了语音识别、NLP、对话管理、语音合成、个性化上下 文通知以及集成第三方应用的强大的虚拟助手,其最大的优势在与与苹 果产品的深度融合,能够执行多样的命令,并在后续加载更多的功能。 根据苹果的官方 2022 年报告,iPhone 14pro 搭载的 Siri 能够回答的知 识是三年前的 20 倍,对于用户提出的各种问题,Siri 都能基于互联网 资讯并给出答案。但是从现在看来,ChatGPT 至少在回答的准确性上对 Siri 造成了极大地挑战,Siri 未来发展的关键,或许将朝着更加便捷、 更加准确的方向继续前进。 根据《纽约时报》最新报道,苹果正在测试一款最新的生成式 AI (generative AI)技术,并计划将该技术未来能用于 Siri 虚拟助手, 来弥补 Siri 在原始设计上的根本性问题,但是具体的发布时间,以及 能够解决哪些根本性的问题尚未透露。据 9to5Mac 消息,在最新的 tvOS 16.4 和 macOS Ventura 13.3 测试版中,苹果正在更新其电视产品。在 苹果 TV 上的 Siri 将获得自然语言更新,并且 macOS TV 应用程序的界 面也会发生改变,期待苹果在 ChatGPT 催动 AI 爆发式更新下的应用革 新。
4.2. Core ML、ARKit,Face ID
苹果推出 Core ML、ARKit、Face ID 三项 AI 技术,对比其他 AI 巨头仍存差距。除苹果的核心 AI 技术 Siri 之外,苹果在 2017 年也爆 发式地推出了与其产品高度相关的三款 AI 技术: Core ML、ARKit 和 Face ID。Core ML 是 苹果 推出的一个高性能机器学习框架,专为 iOS 和 macOS 设备设计。它允许开发者在应用中集成预训练的机器学习模型, 实现实时、低延迟的机器学习任务。 Core ML 支持多种模型架构,包括卷积神经网络(CNN)、循环神经 网络(RNN)以及广义线性模型(GLM)等,适用于图像识别、自然语言 处理、推荐系统等领域。ARKit 是 苹果 推出的一款增强现实(AR)开 发框架,利用设备的摄像头和各种传感器捕捉现实环境的数据。ARKit 能够识别现实世界的表面和物体,将虚拟内容与现实环境相融合。开发 者可以借助 ARKit 构建各类 AR 应用,涵盖游戏、导航、购物等场景。 Face ID 是 苹果 开发的一种面部识别技术,基于深度学习算法进行生 物识别。Face ID 使用 TrueDepth 摄像头系统获取用户的面部特征, 将其转换为数学表示。通过神经网络进行模式匹配和识别,实现对设备 的解锁、苹果 ID 验证以及支付操作等。Face ID 的设计旨在确保用户 数据的安全性和隐私保护。对比科技巨头的 AI 产业布局,苹果在自然 语言处理大模型上的研究与产品对比其他巨头有明显差距,苹果仍需在 AI 大模型领域取得突破。