科技公司AI技术成果梳理

提问时间：2024/03/14
浏览次数：198
提问者：匿名用户
举报
分享微信 QQ 微博

科技公司AI技术成果梳理

标签

科技
AI

共有2个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/03/14 13:16

全球科技巨头争相布局，AI 技术成果不断涌现。

1. Open AI

1.1. GPT 系列

GPT 系列采用“预训练+微调”训练策略，目前已在 AI 领域获广泛应用。GPT 系列采用了 Hinton 等人在 2006 年提出的一种自然语言处理模型 Transformer 的 decoder 部分，并采用了一种经典的神经网络训练策略:“预训练+微调”的训练策略。在预训练阶段，基于庞大的无标签文本语料库训练一个生成式语言模型，从而获得对于语言的深层次理解；在微调阶段，使用后续数据继续训练模型，以应对不同的运用场景。 ChatGPT 系列功能强大，目前已成为最被大众所熟知与认可的 AI 聊天机器人，同时许多科技公司陆续开展了跟进项目，与 ChatGPT 系列进行深度融合，令 GPT 系列成为目前 AI 领域的发动机与方向盘。

GPT 系列的第一个模型 GPT-1 于 2018 年 6 月发布，它使用了一个 12-layer 的 Transformer 解码器，并进行了一个包含 4500 万词条的书籍语料库进行预训练，此时只能完成一些基本的自然语言处理任务，如文本生成，分类和语言翻译功能。；2019 年 2 月，Open AI 发布了 GPT 系列的第二个模型 GPT-2，在沿用一代网络结构设计的基础上，升级了模型参数和数据集的规模，并使用了一个 24-layer 的 Transformer 解码器，相比前代，GPT-2 最大的进步在于可以生成更加连贯、流畅、逻辑性更强的文本结果，甚至可以根据对话者的要求修改自己的回答文本风格。2020 年 5 月，GPT-3 正式推出，GPT-3 拥有着前所未有的 1750 亿个参数量级的 Transformer 解码器，并在一个包含 5700 亿词条的多源文本语料库上进行了预训练。GPT-3 的能力已经可以做到以人类的流利程度撰写散文，其生产的文本质量之高，让 31 名 Open AI 研究人员在 GPT-3 2020 年 5 月 28 日的原始论文中强调了 GPT-3 的潜在风险。2020 年 9 月 22 日，微软宣布获得 GPT-3 的“独家”使用权；其他人仍可以使用公共 API 获取输出，但只有微软能够访问 GPT-3 的底层模型。

GPT 系列高速迭代，GPT 3.5、GPT 4 及 ChatGPT 插件先后发布推动人工智能高速发展。2022 年至今，GPT 系列进入高速迭代期。2022 年 1 月，Open AI 宣布 GPT-3.5 诞生，它是基于 GPT-3 迭代后的微调版本，也被称为 InstructGPT，GPT-3.5 相比前代，加入了人类反馈强化学习（RLHF）的概念，在人类反馈强化学习下，人类向机器学习算法提供反馈，这些反馈可以用于调整模型。这种方法可以解决监督和非监督学习的局限性，即机器学习算法从仅标记或未标记的数据中学习的能力有限。 2022年11月，Open AI正式发布ChatGPT，它是一款建立在GPT系列（LLM）的基础之上的 AI 聊天机器人，并进一步强化了 RLHF 的作用：从用户的问答中收集数据，从而更好地训练和微调 ChatGPT 本身。与前身 InstructGPT 相比，ChatGPT 有害性和欺骗性的回应概率被大幅降低，令搭载了 GPT-3.5 的 ChatGPT 成为 AI 领域最成功的产品。 2023 年 3 月 14 日，GPT-4 横空出世，是 Open AI 扩大深度学习成果的一项里程碑式的杰作。GPT-4 是一款大型的多模态模型（接受图像和文本输入，发出文本输出），其最大的进步在于，GPT-4 相比 GPT-3.5，能够表现得更可靠，回答更有创造力，并且能够产出更细致的回答，具体来说：1.GPT-4 大幅提高了应对专业学术考试的表现，如通过了模拟律师考试，并且成绩排在考生前 10%；2.跨语言 MMLU 的识别精度提升； 3.视觉输入能力的加入，从此 ChatGPT 也可以额接受图像的输入并生成回答。Open AI以极高地速度迭代优化GPT系列。短期内接连发布的GPT-4 和 ChatGPT Plugins，推动这 AI 领域飞速发展并进一步打开潜在的应用空间。

GPT-4 参数规模达到 GPT-3 的 6 倍以上，不同领域的熟练程度超越人类表现。基于微软发布的《 Sparks of Artificial General Intelligence: Early experiments with GPT-4》报告，从推理、规划、解决问题、抽象思维、理解复杂思想、快速学习和经验学习能力等角度足以发现，GPT-4 相较历代具有显著进步。从参数规模上来看，GPT-4 有超过 1 万亿个参数，是 GPT-3（1750 亿个参数）的 6 倍以上，根据预测，以这个速度继续发展下去，或许在 5 年之内，GPT 系列就能达到甚至超过人类大脑的规模（170 万亿个参数）。除此之外，微软具体测试了 GPT-4 在语言、数学、编程、视觉、医学、法律和心理学领域的表现水平，结果演示，GPT-4 已经有超越人类水平的表现。GPT-4 能够在不同领域表现出高度熟练程度，理解复杂概念，并将多个领域的技能和概念统一起来。研究结果表明，GPT-4 不仅能学习不同领域和风格的通用原则和模式，还能以创造性的方式将其结合。

2023 年 3 月 23 日，Open AI 再次带来了 ChatGPT 的重量级更新— —ChatGPT Plugins，它是的 ChatGPT 通过 Open AI 插件可以连接到第三方应用程序，使得 ChatGPT 在某一具体领域的功能被大幅增强，并且被允许执行更广泛的操作。目前解锁的官方插件有：Expedia, FiscalNote, Instacart, KAYAK, Klarna, Milo, OpenTable, Shopify, Slack, Speak, Wolfram, and Zapier。以 Expedia 和 Wolfram 为例，加载 Expedia 后，ChatGPT 在为用户生成旅行计划后，可以直接通过 Expedia 进行预订机票、酒店行为；加载 Wolfram 后，ChatGPT 近期饱受诟病的复杂数学问题解决能力将被大幅提升。

ChatGPT 目前也仍存在一定的风险和问题，例如有害的建议，错误的代码提示或者是不准确的信息，而目前 Open AI 的做法是：在 RLHF 训练过程中加入额外的安全奖励信号，通过训练模型拒绝此类内容的请求来减少有害信息的输出。截止目前，除 ChatGPT 本身的功能，大量的科技公司也开发了新的 AI 技术，如 Adobe Firefly，Microsoft 365Copilot，与 GPT 系列深度融合，从办公，设计，绘画领域，开启了一场史无前例的生产力革命。GPT 系列，无疑将成为当前时代一切领域发动机。

1.2. Codex 系列

Codex 是一款 NLP 模型，定位弥补 GPT-3 代码生成缺陷。Codex 最初的设计理念，是作为弥补 GPT-3 在代码生成方面的不足而开发的另一款 NLP 模型。借助 Codex，即使是非专业的程序员，也可以轻松编写代码，这大大降低了编写程序的门槛。随着后续的发展，Coedex 迭代为了微软 365 Copilot，不仅能作为编程助手，更加入了微软办公软件助手功能，从而极大地提高了当前办公效率，或将在不久后引发一场世界范围的办公室革命。 2021 年 6 月，基于早期 Codex 的早期版本和原型，Open AI 与 GitHub 合作推出了 GitHub Copilot，作为一款 AI 技术下的代码补全工具，以技术预览的形式暂时向公众开放。2021 年 8 月，Open AI 正式发布了 Codex，宣布了这一款全新的高效编程助手模型，Codex 专注于优化 GPT 系列在程序设计和代码生成上的不足，根据用户输入的文本 prompt 提供编程建议，从而帮助开发者更好地编写代码。

2. 谷歌

2.1. Bard 聊天机器人

谷歌内测 Bard，提供自然语言问答服务。为了与 Open AI 的 ChatGPT 抗衡，谷歌在 3 月 21 向一部分内测用户推出了一款实验性、对话式的聊天 AI 服务——Bard，相比于 ChatGPT，Bard 使用更轻量级的 LaMDA 模型和互联网语料库提供自然语言问答服务。根据谷歌官方，Bard 是一款与 ChatGPT 相当的，富有智慧的 AI 聊天机器人，但 Bard 的使用体验未达预期，这主要表现在回答的准确性上。例如，在一次演示中，Bard 针对于用户对于詹姆斯·韦伯太空望远镜（JWST）的问题，提供了相距事实甚远的信息。与此同时，Bard 也有一些比较明显的优点，比如 Bard 会主动提醒用户，自己目前还比较容易犯错误，并且 Bard 在和用户的问答中，会提供相比 ChatGPT 而言，更为温和的回答。除此之外，谷歌官方表示，Bard 在语音理解能力和上下文敏感性都相比 ChatGPT 将有很大程度的提升，因为从原理上，LaMDA 生成器首先在给定当前多轮对话上下文的情况下生成多个候选响应， LaMDA 分类器预测每个候选响应的 SSI 和安全分数，从而给出更高质量的回答。尽管 Bard 和 ChatGPT 在一些性能上的表现各有优劣，但是二者仍然在 AI 聊天服务上旗鼓相当，期待 Bard 正式发布后的持续进化及后续表现。

2.2. Bert 预训练模型

Bert 技术内核与 GPT 系列相似，但 NLP 处理任务性能上存在差距。 Bert 是谷歌于 2018 年 10 月发布的一款 NLP 预训练模型，它的技术内核与 GPT 系列非常相似。它同样采用了谷歌在 2017 年提出的 Transformer 架构，并使用了与训练和微调的方法，使得 Bert 能够在处理文本时同时考虑上下文信息，从而生成更丰富、准确的自然语言。BERT 的发布改变了自然语言处理的领域，刷新了多项 NLP 任务的性能记录，如文本分类、命名实体识别和问答系统等。GPT 系列模型确实借鉴了 Bert 的一些关键思路，基于 Transformer 架构的预训练加微调模型，但是它们在处理文本的方向性上和预训练使用的任务上具有显著差异，这导致了它们在 NLP 处理任务的性能上最终还是存在较大差别。

2.3. DeepMind 实验室

DeepMind AI 实验室被谷歌收购，专注于医疗健康与策略游戏应用。 DeepMind 是一家成立于 2010 年，专注于 AI 领域的实验室，并于 2014 年被谷歌收购，在这十年的发展中，它的研究主要集中于医疗健康与策略游戏上，并产出了许多优秀的 AI 程序：1）AlphaGo： DeepMind 于 2016 年推出的 AlphaGo 是一款革命性的围棋 AI 程序。它运用先进的强化学习和蒙特卡洛树搜索算法，成为了首个击败人类围棋世界冠军的计算机程序。AlphaGo 在 2016 与围棋大师李世石的对弈胜利被认为是 AI 领域的一个里程碑式的事件。2）AlphaZero：继 AlphaGo 成功之后， DeepMind 在 2017 年推出了 AlphaZero，一种具有更广泛应用范围的强化学习算法。AlphaZero 能够在无需输入任何资料的情况下，仅通过不断进行自我对弈，就可以成为国际象棋、围棋和将棋等游戏的顶级选手。仅用几小时的学习时间，AlphaZero 便能精通这些游戏。3） AlphaStar：2019 年，DeepMind 推出了 AlphaStar，一款基于强化学习的实时战略游戏《星际争霸 II》AI 系统。AlphaStar 通过大量自我对弈，掌握了高级游戏策略，并在与人类选手的对战中表现出了卓越的战术素养。AlphaStar 是首个成功击败人类职业选手的《星际争霸 II》 AI。4）AlphaFold：DeepMind 于 2020 年发布了 AlphaFold，一款旨在预测蛋白质三维结构的 AI 系统。AlphaFold 运用深度学习算法，为研究人员提供了更快速且准确的蛋白质结构预测方法。这一科技突破被认为是近年来生物学领域最具影响力的进展之一，为生物学研究和药物开发领域带来了巨大潜力。2021，DeepMind 发布了该系列的第二代： AlphaFold 2，它的性能相比前代在效率和预测性上有着突出的优势，可在几分钟内破译一般蛋白质的三维结构，还可以预测一个由 2180 个氨基酸相连的大蛋白质的结构。

3. 脸书（Meta）

FAIR 为 Meta 旗下 AI 研究部门，开发 AI 计算机及 LLaMA 大型语言模型。Facebook AI（FAIR，现更名为 Meta AI）于 2013 年正式成立，是 Meta 旗下的核心的 AI 研究部门，它致力于运用 AI 技术，包括计算机视觉、自然语言处理（NLP）、语音识别、机器学习、强化学习、机器人学等多个方面，为 Facebook 产品提供支持。2014 年，在 FAIR 研究结果帮助下，Facebook 推出了一款基于深度学习的人脸识别系统： DeepFace，在当时的准确率就已经高达 97.35%，甚至高于人类对于人脸的识别能力。2015 年，FAIR 发布了一款虚拟助手：M，这是一款早期的非常早期的 AI 聊天程序，由于 M 在准确性和识别性上的性能不高，在 2018 年该项目最终停止运营。2017-2018 年，为了更好地对 Facebook 用户数据进行分析和审核，FAIR 分别推出了 DeepText 自然语言处理引擎和 Rosetta 计算机视觉系统，使得 Facebook 在新闻推送，评论排序和内容审核上的能力大幅提高。2019 年，FAIR 正式发布了一款面向研究人员的预训练模型：PyTorch Hub，PyTorch 早在 2016 其实已经基本开发成型，并在后续研究过程中不断完善。PyTorch 的设计灵活、易于使用，支持动态计算图，让开发人员能够更容易地构建、调试和优化神经网络模型。2020 年，FAIR 发布了一款开放领域聊天机器人：Blender，同样是基于预训练加微调的方法，但是在对话质量上仍然与 ChatGPT 有着较大差距，这主要是源于优化目标（Blender 的开发目标是实现连贯有趣的对话）、模型架构（没有使用更加先进的 Transformer 架构）和训练数据规模上的差别。2022 年，FAIR 建造了一台带有新型 AI 研究超级集群（RSC）AI 超级计算机，Meta 表示，在彻底建成后，它将成为世界上计算速度最快的超级计算机。

2023 年，FAIR 公开了一个名为 LLaMA（Large Language Model Meta AI）的大型语言模型，并对其进行了开源，该模型具有 650 亿个参数，。与其他大型语言模型相比，LLaMA 更小、更高效、更节省资源，并且广泛可用于许多不同的实例，而不是针对特定任务对模型进行微调，但同时，它的参数级别也明显更低，在回答的准确性上还有待提升。

4. 苹果

4.1. 虚拟助手 Siri

虚拟助手 Siri 是苹果代表性的 AI 成果。2011 年，Siri 随着 iPhone 4s 的推出被一同发布，并在后续被迅速整合到苹果旗下的其他产品中。 Siri 是一款整合了语音识别、NLP、对话管理、语音合成、个性化上下文通知以及集成第三方应用的强大的虚拟助手，其最大的优势在与与苹果产品的深度融合，能够执行多样的命令，并在后续加载更多的功能。根据苹果的官方 2022 年报告，iPhone 14pro 搭载的 Siri 能够回答的知识是三年前的 20 倍，对于用户提出的各种问题，Siri 都能基于互联网资讯并给出答案。但是从现在看来，ChatGPT 至少在回答的准确性上对 Siri 造成了极大地挑战，Siri 未来发展的关键，或许将朝着更加便捷、更加准确的方向继续前进。根据《纽约时报》最新报道，苹果正在测试一款最新的生成式 AI （generative AI）技术，并计划将该技术未来能用于 Siri 虚拟助手，来弥补 Siri 在原始设计上的根本性问题，但是具体的发布时间，以及能够解决哪些根本性的问题尚未透露。据 9to5Mac 消息，在最新的 tvOS 16.4 和 macOS Ventura 13.3 测试版中，苹果正在更新其电视产品。在苹果 TV 上的 Siri 将获得自然语言更新，并且 macOS TV 应用程序的界面也会发生改变，期待苹果在 ChatGPT 催动 AI 爆发式更新下的应用革新。

4.2. Core ML、ARKit，Face ID

苹果推出 Core ML、ARKit、Face ID 三项 AI 技术，对比其他 AI 巨头仍存差距。除苹果的核心 AI 技术 Siri 之外，苹果在 2017 年也爆发式地推出了与其产品高度相关的三款 AI 技术: Core ML、ARKit 和 Face ID。Core ML 是苹果推出的一个高性能机器学习框架，专为 iOS 和 macOS 设备设计。它允许开发者在应用中集成预训练的机器学习模型，实现实时、低延迟的机器学习任务。 Core ML 支持多种模型架构，包括卷积神经网络（CNN）、循环神经网络（RNN）以及广义线性模型（GLM）等，适用于图像识别、自然语言处理、推荐系统等领域。ARKit 是苹果推出的一款增强现实（AR）开发框架，利用设备的摄像头和各种传感器捕捉现实环境的数据。ARKit 能够识别现实世界的表面和物体，将虚拟内容与现实环境相融合。开发者可以借助 ARKit 构建各类 AR 应用，涵盖游戏、导航、购物等场景。 Face ID 是苹果开发的一种面部识别技术，基于深度学习算法进行生物识别。Face ID 使用 TrueDepth 摄像头系统获取用户的面部特征，将其转换为数学表示。通过神经网络进行模式匹配和识别，实现对设备的解锁、苹果 ID 验证以及支付操作等。Face ID 的设计旨在确保用户数据的安全性和隐私保护。对比科技巨头的 AI 产业布局，苹果在自然语言处理大模型上的研究与产品对比其他巨头有明显差距，苹果仍需在 AI 大模型领域取得突破。

参考报告

人工智能行业-中美科技巨头的AI大模型竞赛：GPT裂变时刻.pdf

人工智能行业-中美科技巨头的AI大模型竞赛：GPT裂变时刻。le_Summary]AI技术发展多时，深度学习时代AI浪潮开启。AI研究领域最早源自于1943年神经元模型诞生，并于1956年达特茅斯会议正式确立；随后AI技术先后进入专家系统时期（1970s-1980s）、机器学习时期（1990s-2000s），目前AI领域已迈入深度学习时期（2010s-至今），深度神经网络、自然语言处理成为深度学习时代的技术内核，大型科技公司和研究院开启深度学习热潮，共同推动AI产业迎来变革。全球科技巨头争相布局，AI技术成果不断涌现。海外科技巨头OpenAI、谷歌、Meta、苹果、亚马逊、微软、英伟达、Ad...

查看详情

科技公司AI技术成果梳理

1. Open AI

2. 谷歌

3. 脸书（Meta）

4. 苹果

人工智能行业-中美科技巨头的AI大模型竞赛：GPT裂变时刻.pdf

中美科技企业AI布局对比分析

科技板块行情、创新趋势与择时策略分析

美股科技公司收入及后续展望分析

海外科技公司业绩、资本开支及运营支出情况如何？

科技指数收益及基本特征总结

为什么人工智能时代大国科技博弈加剧?

中国科技布局、研发投产、机遇与挑战分析

美股科技公司业绩表现如何？

海外科技公司业绩、组织结构及资本开支情况如何？

前沿科技发展现状、挑战及趋势分析

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王