谷歌产品竞争优势体现在哪?

谷歌产品竞争优势体现在哪?

最佳答案 匿名用户编辑于2025/02/18 16:04

谷歌作为云大厂中自研芯片的先行者和 AI 领域的奠基者之一,其自研的 TPU 是专为神经 网络设计的 ASIC 芯片,具有矩阵乘法单元(MXU)和专有的互连拓扑等专用功能。

谷歌 TPU 对比其他科技厂商拥有先发优势,主要在以下两个方面: 1) 专为神经网络的张量运算而设计,高度匹配自身生态。TPU 专为神经网络设计,具有 矩阵乘法单元(MXU)、专有互连拓扑、多重切片等功能来优化模型训练端。其不仅适 合训练大模型,且对比通用 GPU 具备成本(TCO)优势。此外,谷歌不仅已通过 TPU 实现包括 Gemini 在内的自身模型训练,其专门为谷歌开源深度学习框架而定制,与 TensorFlow、PyTorch、JAX 等机器学习框架集成在一起,且已商业化落地,能为云端 客户提供自研模型的硬件支持。对比 Meta 目前的 MTIA 系列芯片仅用于广告推荐、信 息流等业务,在模型训练领域性能仍较为不足;AWS 在硬件支持自身生态系统方面稍 逊一筹,其自研芯片主要通过实例来供客户使用;微软旗下 Maia AI 芯片则推出较晚, 目前仅优先为自身云服务提供支持。 2) 研发经验丰富,已经历多次迭代。TPU 自 2016 年开始推出,八年间已迭代至第六代, 对比 AWS 及 Meta 分别在 18/23 年才陆续布局,而微软早年虽有布局但因选用 FPGA 而导致裹足不前。谷歌芯片研发经验优于同业,且具备先发优势。此外,AWS、微软 及 Meta 在模型训练上也仍需英伟达等外部厂商的支持,其中微软计划将在 2024 年直 接购买超过 40 万个 GPU,用于训练端和 Copilot /API 推理端;而 Meta 也声称在生成 式 AI 与模型端,公司仍以采购英伟达芯片为主。对比下谷歌已成功基于 TPU 完成对 Gemini、Gemma 等模型的训练。

谷歌在硬件方面深耕已久,TPU 在架构与性能参数上不断迭代。第一代 TPU 于 2016 年谷 歌 I/O 大会上正式发布,主要为谷歌云计算数据中心的机器学习应用提供,彼时仅面向推理 端,但从 2017 年推出第二代开始,TPU 已同时拥有训练和推理能力,不仅能支持浮点数 运算,且具有更高的片上内存。2018 年发布的 TPU v3 旨在提高性能和能效以满足不断增 长的机器学习任务需求,但其应用范围仍然受限于谷歌的生态系统和软件包。第四代 TPU 于 2021 年发布,主要突破在于部署可重构光电路交换机(Optical Circuit Switch,OCS) 来快速动态重新配置芯片之间的连接,有助于在出现故障时实时调整。专为中大规模训练 和推理而构建的 TPU v5e 于 2023 年发布。与 TPU v4 相比,TPU v5e 可为大语言模型提 供高达 2 倍的训练性能和 2.5 倍的推理性能,并能节约一半以上的成本。Gemini 1.0 是基 于 TPU v4 和 TPU v5e 在人工智能优化基础上进行的大规模训练,在 TPU v5p 也会应用于 加速 Gemini 开发。 2024 年 5 月 15 日,谷歌于 I/O 大会宣布第六代 Trillium TPU,并于 10 月底正式推出预览 版。Trillium TPU 通过改良芯片设计,包括扩大矩阵乘法单元(MXU)并提高时钟速度,以 及提升 HBM 和芯片间互连(ICI)带宽至 v5e 的 2 倍,使单芯片峰值算力对比 TPU v5e 提 高 4.7 倍,能效也比 v5e 高 67%以上。芯片扩展方面,Trillium 不仅通过 Multislice 技术能 在单个 Pod 中扩展至 256 个 TPU,且能通过多切片技术实现集群,从而每秒处理 PB 级数 据。目前谷歌 Trillium TPU 已于 24 年 10 月底推出预览版。此外,目前谷歌仅通过谷歌云 服务平台向外部客户提供 TPU 的算力租赁服务,而未有将其作为硬件产品出售。

相较于 GPU,TPU 在 AI 领域具有以下优势:1)性能:TPU 专为张量运算而设计,能针 对特定 AI 工作负载(训练、微调和推理)进行经济高效的扩缩,因此在特定情况下,神经 网络的训练和推理效率或更高。2)集成性:TPU 专门为谷歌开源深度学习框架而定制,与 TensorFlow、PyTorch、JAX 等机器学习框架集成在一起,可加速其工作负载,在一同使用 下效率或更高。3)成本:谷歌云上 TPU 相比 GPU 价格而言,配置 1 个 H100 芯片,内存 为 234GB 的 A3 虚拟机价格为 11.06 美元/小时,H100 现货价格为 9.04 美元/芯片/小时, TPU v4/v5e/v5p/v6 的价格分别为 3.22/1.2/4.2/2.7 美元/芯片/小时,TPU 收费存在优势。 不过,TPU 作为 ASIC 存在通用性较弱等问题。此外,TPU 的应用也在一定程度上受到英 伟达 CUDA 生态圈一家独大的影响。谷歌云作为 AI 云服务商,需满足有 AI 训练和推理需 求的客户,而英伟达 GPU 拥有生态圈成熟和开发者众多的 CUDA,是目前大部分 AI 训练 所必需的工具。因此,我们认为 TPU 或其他云大厂自研芯片不会完全取代英伟达的 GPU, 二者与英伟达 GPU 应能形成良性互补,并非零和博弈,但若未来科技厂商算法相对成熟, 设计 ASIC 去取代部分英伟达的算力也较为合适。此外,谷歌在自研 AI 芯片同时,也大量 采购英伟达 GPU,包括 H100 以及 Blackwell 平台,也引入公司 AI 云基础设施和超级计算 机架构中,目前已公布基于 Blackwell GB200 NVL 机架的预览照片。对比微软、AWS 与 Meta 亦同时采取自研+外购 AI 芯片齐头并进策略,实现优势互补与降本增效。

总的来说,我们认为:1)谷歌 TPU 或其他云厂商的自研芯片不会在一夜之间取代所有英 伟达的 GPU;2)若算法已相对成熟,可使用 TensorFlow 框架编程并在 TPU 上运行,可 有效利用其优化和加速,节省成本,或是性价比较高的选择;3)面对英伟达 CUDA 的成熟 生态圈,云厂商自研芯片无需以完全取代作为目标,而仅需为客户提供更多算力选择即可 有效打开市场。

如今模型应用发展有两大趋势:1)单一文本模型向多模态大模型转变;2)大参数模型向 轻量化与端侧发展。谷歌在两方面部署上均处于第一梯队,对比同业模型竞争优势明显。 我们认为,在大模型竞争中,OpenAI 虽凭借早期先发优势与商业化落地率先抢占市场, 但目前谷歌凭借自身硬件、数据与生态优势,叠加以 Gemini 为主的“AI 全家桶”重振旗 鼓,逐渐抢回 AI 赛道上的主动权。如今 OpenAI 不仅模型迭代的速度开始变慢,且管理层 接连出现变动,23 年 11 月 CEO Sam Altman 出现领导力危机,24 年 5 月联合创始人 IIya Sutskever 离职,9 月 CTO Mira Murati、首席研究官 Bob McGrew 和研究副总裁 Barret Zoph 均宣布离职,显现出公司管理层内部或存在一定问题。对比下谷歌有望在此次 AI 竞 赛中逐渐缩小与 OpenAI 的技术与份额差距。

各科技公司针对自身软硬件优势各有侧重: 1) 谷歌凭借自身 TPU 与数据集赋能大模型发展,持续拓宽模型应用范围。先后推出大语 言模型 PaLM、PaLM2,并加强垂直应用布局,依据特定领域的数据进行了模型微调, 以执行企业客户的特定任务。多模态大模型 Gemini 在多项基准测试中的优秀表现已成 功挑战到 OpenAI 一家独大的地位。此外,谷歌在轻量化大模型、可交互生成式世界模 型上亦有部署,旗下 Gemma 系列及 Genie 先后推出以强化自身模型端竞争力。另外, 作为 Transformer 的发明者,谷歌也非常明白大模型的幻觉问题,因此,他们并没有将 此技术直接应用到搜索里。不过,面对像 Perplexity 等“先搜索、后整理”的正确运用 大模型去整理爬虫等搜索结果的后起之秀,我们认为谷歌也有必要急起直追,以巩固其 在搜索的霸主地位,防止份额被进一步蚕食。 2) 微软联盟 OpenAI 在大模型领域占据先发优势,多元布局欲打造 AI 模型帝国。2022 年 11 月 30 日,基于 GPT-3.5 的 ChatGPT 正式发布,开创了人工智能新纪元。微软则 通过与 OpenAI 相互赋能,成为一时无两的大模型领域领跑者。但近期 OpenAI 的各种 问题,包括多位高管和创始人的离职,加上竞争格局愈发激烈,以及 Scaling Law 的发 展开始众说纷纭,并涉及到通用性(Artificial Generative AI)和垂直领域(domain expertise)应用的争议等,也将影响微软在 AI 应用的落地。截至 24 年 10 月,微软已向 OpenAI 投资共计 137.5 亿美元,并拥有 GPT-4o 和包括 DALL·E、Embedding、Whisper 等在内的所有其他 OpenAI 人工智能模型的独家授权,让其 Azure OpenAI 服务旗下模 型种类众多且能商业化率先落地。而微软自身也针对轻量化模型领域于 2024 年 4 月发 布开源模型 Phi-3,包含单语言模型的 mini、small 和 medium 版本和多模态的 vision 版本,助力边缘智能终端部署,但先发优势能否维持则有待观察。 3) 亚马逊也具备较完整的硬件端产品布局,专注 B 端客户布局中间层服务。亚马逊主要 聚焦 B 端客户需求,其借助自研训练芯片 Trainium 与推理芯片 Inferentia 具备构筑大 模型的成本优势,拥有自研大语言模型 Amazon Titan,亦为 B 端提供 Amazon Bedrock 服务平台,让用户能访问来自 Anthropic、Cohere、Meta with Llama2 和 Stability Al 等丰富的 AI 模型库。 4) Meta 深耕开源大语言模型 LlaMa,多模态与轻量级模型齐发力。Meta 深耕轻量化模 型领域,旗下 LlaMa 能以较小的参数量媲美主流大模型性能,并通过开源免费提供给 研究者和商业使用者。2024 年 4 月,Meta 发布 Llama 3,12 月更新到 Llama 3.3 版本, 使性能与效率双升,并进一步节省算力。此外,Meta 不仅通过 ImageBind 实现跨多模 态创建联合嵌入空间技术,还构建了针对翻译、语音、图像及视频的多款轻量化模型。 5) 字节跳动豆包大模型崭露头角,快速工厂式复制 AI 应用。豆包大模型具备多模态处理 能力,日均 tokens 使用量超过 4 万亿,相比发布时增长了 33 倍。至 2024 年 11 月, 豆包 APP 的月活跃用户数(MAU)已达到约 5998 万。我们认为,字节跳动具备爆款 应用的生产能力,有望在 AI 垂类领域复制,但后续盈利能力仍待观察。6) 百度飞桨+文心大模型打造中间技术层,赋能模型应用蓬勃发展。文心大模型 ERNIE 涵盖 NLP、视觉、跨模态、生物计算和行业模型五大领域。目前,百度 AI 架构已具备 垂直一体式布局,下游行业覆盖面广泛,已有多家合作伙伴接入文心生态。

2023年 12月 6日,谷歌宣布多模态大模型 Gemini 1.0 正式上线。模型分为 Gemini Nano、 Gemini Pro、Gemini Ultra 三个版本,被用于从数据中心到移动设备的所有设备上,并将 渗透于整个 Google 生态中。谷歌在大模型领域深耕多时:公司于 2023 年 3 月发布聊天机 器人 Bard;4 月份将 Google Brain 和 DeepMind 人工智能实验室合并;5 月份在 Google I/O 大会上,宣布新实验室 Google DeepMind 开始研发 Gemini;历经半年大规模开发,团队 成果得以面世。2024 年 5 月,谷歌于 I/O 大会宣布推出 Gemini 1.5 Pro 和轻量化版本 Gemini 1.5 Flash。2024 年 12 月,谷歌宣布推出 Gemini 2.0,先行推出 Flash 实验版本可供用户 和开发者使用,目前尚未明确定价方式。

1) Gemini 1.5 Pro:首创大型模型长上下文窗口。不仅升级了翻译、编码、推理、音频和 图像理解等功能,且其私人预览版上下文窗口已达 200 万 tokens,对比远超 GPT-4o 的 12.8 万。在文本、代码、图像、音频和视频评估测试中,1.5 Pro 87%的表现优于 1.0 Pro,与 1.0 Ultra 大致相似。在 NIAH 评估中,1.5 Pro 在 99%的时间内都能从长文 本块中找到所需嵌入文本。此外,Gemini 1.5 Pro 还具备情境学习技能,可从长信息中 学习新技能,而不需要额外微调。 2) Gemini 1.0 Ultra:谷歌最大、性能最强的模型。用户能访问 Gemini Advanced 使用 Gemini Ultra。Gemini Ultra 能有效执行编码、逻辑推理、遵循复杂指令以及协作创意 项目等复杂任务。此外,移动端用户也能使用 Android 和 iOS 来体验 Gemini Ultra。 3) Gemini 2.0 Flash:最受开发者欢迎的模型,主打低延迟下的增强性能。2.0 Flash 在 关键基准测试中速度是 1.5 Pro 的两倍。除了支持图像、视频和音频等多模式输入外, 2.0 Flash 还支持多模式输出,例如与文本混合的原生生成图像和文本转多语言音频。 此外还可以原生调用 Google 搜索、代码执行以及第三方用户定义函数等工具。 4) Gemini 1.0 Nano:设备端任务模型。可在支持 Android 的设备上运行,此外,需要使 用 Android 版 Google AI Edge SDK。2023 年 12 月,Google 官宣 Gemini Nano 将在 Pixel 8 Pro 上正式运行,有助于防止敏感数据离开手机,并提供在没有网络连接的情况 下获取录制的对话、采访、演示等内容的摘要。 Gemini 模型采用多模态模型技术,发展前景广阔。Gemini 1.0 模型建立在 Transformer 之 上,并使用 TPUv5e 和 TPUv4 进行训练与优化,Gemini 2.0 则基于最新的 Trillium TPU 上 进行训练和推理。预训练数据集选取于网络文档、书籍和代码。谷歌没有像 OpenAI 构建 DALL·E 和 Whisper 那样单独训练图像和语音模型,而是直接建立原生多模态模型,这有 助于 Gemini 无缝理解和推理各种输入,不仅优于 GPT-3.5 纯文字大语言模型,也不需要 像 GPT-4 那样依赖插件和集成来实现推理、编码、文本、图像、音频等功能。

多维度基准测试展现 Gemini 性能,挑战 OpenAI 一枝独秀的地位。得益于谷歌专有数据 与多模态特性的支持,Gemini 1.0 Ultra 在基准测试中的 30 项上领先于 GPT-4,但幅度较 小。多任务语言方面,Gemini 1.0 Ultra 在 MMLU(大规模多任务语言理解)中的得分率高 达 90.0%,首次超越人类专家,对比 GPT-4 的准确率为 86.4%;图像基准方面,Gemini 1.0 Ultra 无需从图像中提取文本,能直接进行 OCR 处理,在 MMMU 基准测试中准确率为 59.4%; 代码处理方面,Gemini 创建的代码生成系统 AlphaCode 2 表现优于 87%的竞赛参与者, 能够理解 Python、Java、C++等高质量代码。随着谷歌 AI 产品逐步商业落地,未来将成为 OpenAI 有力的竞争对手,估值低于微软的局面或将扭转。 Gemini 2.0 推出思维模式,对标 OpenAI o1 模型,在“幻觉”处理方面更进一步。基于 Gemini 2.0 Flash,谷歌经过专门训练推出 Thinking 模式,可使用思维(thoughts)来增强 其推理能力。与 o1 思维链(chain of thoughts)的关键区别是,Gemini 2.0 Flash Thinking 在进行过程中会明确展示其推理过程,而 o1 则会隐藏其步骤,对于需要确保在长思维链中 不会出现幻觉的领域来说,我们认为这是谷歌相对于 OpenAI 产品的重大进步。截止 2024 年 12 月,Gemini 2.0 Flash Thinking 模型已经跃居 Lmarena Chatbot Arena 的第一位,且 在编程、数学、创意写作等各项评测任务上均为第一名。Targum 创始人和 CEO Alex Volkov 通过 10 个难题对 o1-2024-12-17 和 Gemini-2.0-flash-thinking 进行了对比测试,结果发现 这两个推理模型的表现相当,而后者的速度更快。

Gemini 定价对标 GPT Plus,踏上大模型商业化落地万里长征的第一步。目前,用户能免 费使用 Gemini 聊天机器人,谷歌 Gemini Ultra 1.0 通过 Google One AI Premium 提供,具 有两个月免费试用期,此后订阅价格为 19.99 美元/月。对比 OpenAI 提供“GPT Plus”订 阅价格为 20 美元/月。新贵 AI 搜索公司 Perplexity 同样将其 Perplexity Pro 版本价格定位 在 20 美元/月。Google Gemini 开发者模式则分不同模型定价,其中 1.5 Flash 免费版本速 率限制在 15RPM,付费版本无限制,价格与 GPT-4o-mini 对标;1.5 Pro 免费版本速率限 制在 2RPM,付费版本无限制,价格与 GPT-4o 对标。

全新轻量化大语言模型 Gemma 系列除在 TPU v5e 和 v5p 上优化以外,也针对英伟达芯 片进行优化,跨设备兼容性提升。2024年2月,谷歌推出首款轻量化开源大语言模型Gemma, 其采用与 Gemini 相同的技术构建,分为 20 亿参数和 70 亿参数两种规模,更类似 Gemini Nano 模型的 18 亿和 32.5 亿参数量。Gemma 配备多框架工具,能够在 Keras 3.0、本机 PyTorch、JAX 和 TensorFlow 进行推理和微调。此外,Gemma 还具备跨设备兼容性,可 在笔记本电脑、台式机、物联网、移动设备、谷歌云中运行,并可部署在 Vertex AI 和 Google Kubernetes Engine(GKE)上。2024 年 5 月,谷歌宣布宣布推出 Gemma 2(27B 参数), 其采用全新架构,通过算法改进实现轻量化,其性能可媲美 Meta 参数更大的模型 Llama 3 (70B 参数)。

谷歌 Genie 打造可交互生成式世界。2024 年 2 月,谷歌发布 Genie,作为谷歌继推出大模 型 Gemini、开源大模型 Gemma 之后的新模型。Genie 能接受文本和图像提示,并生成类 似视频游戏的交互式环境。Genie 参数量达 110 亿,在 2D 平台游戏的超过 200000 小时的 视频上进行训练。Genie 的核心组件基于 Vision Transformer 构建,可用于处理视频等具有 时间和空间维度的数据,底层数据库则基于大量游戏视频建立。不同于 Sora、Runway 等 模型,Genie 生成的内容具备可交互属性,用户可通过文本对所生成虚拟环境中的角色动作 进行操控。此外,Genie 由潜在动作模型、视频分词器、动态预测模型三大核心组件组成, 其不仅能理解并推理每帧之间的潜在动作,还能逐帧预测视频,并生成符合运动规律的序 列帧。Genie 也具备可模拟性,其能通过短视频模拟物体的动态变化来训练机械臂等多功能 智能体,有助于机器人的发展。2024 年 12 月,谷歌发布 Genie 2,在上一代的基础上实 现了通用性的飞跃,不同于 Genie1 只能生成 2D 元素,Genie 2 能够生成丰富的 3D 世界, 并具备例如对象交互、复杂的角色动作、物理建模以及预测其他 NPC 行为的能力。

 

2023 年初至今谷歌加码投资多家 AI 独角兽,丰富 AI 版图。伴随 2022 年末以 ChatGPT 为首的生成式 Al 走入大众视野,谷歌在 2023 年对各领域 AI 初创企业的投资持续推进。根 据 Pitchbook 数据,自 2023 年起,谷歌已经投资包括 Anthropic、Hugging Face、Runway 在内的多家 Al 独角兽企业。我们认为此举或出于谷歌对拓宽业务渠道与巩固生态壁垒的需 求,如推出 Claude 3 的初创公司 Anthropic。 2023 年初,谷歌已对 Anthropic 投资 3 亿美元,并获得该公司 10%的股权,2023 年 10 月 谷歌再次向 Anthropic 追加投资 20 亿美元,AWS 也于 2024 年 3 月向 Anthropic 追加 27.5 亿美元投资,总投资额达 40 亿美元,使得 AWS 成为其主要云提供商。24 年 11 月 Anthropic 宣布将使用亚马逊的 Trainium 和 Inferentia 芯片来训练和部署其未来的基础模型。我们认 为,谷歌二度注资 Anthropic 能增强谷歌云在 AI 模型部署上的生态丰富程度,同时也能在 与 OpenAI 的模型竞争中减少新树敌,未来科技巨头争夺 AI 霸主的军备竞赛或更为激烈。

Anthropic 由 OpenAI 前研究副总裁 Dario Amodei 等人于 2021 年创立,旗下 Claude 系列 模型基于 Transformer 架构,且具备推理、视觉分析、代码生成与多语言处理等功能,全面 对标 GPT 系列。2023 年 7 月 11 日发布的 Claude 2 单次可处理高达 10 万 Tokens 的上下 文窗口,对比 GPT-4.0 Turbo 为 12.8 万 Tokens。而在 MMLU 准则中,Claude 2 评分也仅 次于 GPT-4,且已被 Slack、Notion 和 Quora 等众多公司使用。2024 年 3 月 4 日,Anthropic 宣布推出 Claude 3 系列,包括 Haiku、Sonnet 和 Opus 三种型号,能支持文字与图像输入, 并在速度与准确性优化的前提下支持 20 万 Tokens 的上下文窗口。其中,Claude 3 Opus 首次在 MMLU、GPQA 与 GSM8K 等 10 项评分准则中超越了 GPT-4 与 Gemini 1.0 Ultra, 在 3 月发布之后曾经成功登顶 Chatbot Arena 排行榜第一,目前仍保持前十地位,成为 OpenAI 在 LLM 领域的有力竞争者。

参考报告

谷歌研究报告:搜索王者站在十字路口,能否抢回AI主导权?.pdf

谷歌研究报告:搜索王者站在十字路口,能否抢回AI主导权?深耕AI多年,凭借Gemini、TPU、搜索和云生态,抢回AI主导权正当时。自ChatGPT空降后,市场普遍认为谷歌AI技术在走下坡。但我们认为尽管OpenAI凭借微软加持抢占市场,谷歌在AI研究根深蒂固。谷歌早在2016年已洞悉降低AI计算TCO的重要性,自研AI芯片TPU并经历多次迭代,对比其他科技巨头具备先发优势。谷歌也在2017年发布大模型奠基算法Transformer,随后在2018年发布蛋白结构预测系统AlphaFold,发明者在24年荣获诺贝尔化学奖。凭借TPU和Gemini2新大模型,以及庞大的搜索生态数据,叠加全链条云布...

查看详情
相关报告
我来回答