2026年科技行业：英伟达吸收Groq定义AI下半场！

来源：华泰证券
发布时间：2026/01/20
浏览次数：83
举报

相关深度报告REPORTS

科技行业：英伟达吸收Groq定义AI下半场！.pdf

科技行业：英伟达吸收Groq定义AI下半场！Groq交易是英伟达迄今披露的最大一笔交易，规模明显高于其2019年以69亿美元收购Mellanox。我们认为，Groq所掌握的低时延推理核心IP在战略层面的重要性，已与当年Mellanox的互连与网络技术处于同一量级。该交易进一步凸显英伟达对确定性、BatchSize=1推理的前瞻性布局，契合行业向AgenticAI演进的整体趋势。通过将Groq的确定性“反射式引擎”深度整合至CUDA与GPU技术栈，英伟达正加速推动Agentic经济走向主流，并在其已确立优势的AI“上半场”基础上，逐步奠定低时延为核...

问题 1：Groq 是什么？其架构在 AI 发展中有何战略意义？

Groq 的核心产品是 Language Processing Unit（LPU），是面向推理计算阶段专门设计的 ASIC，其出发点并非追求更高的算力规模，而是解决通用 GPU 架构中长期存在的“时延吞吐权衡（latency-throughput tradeoff）”问题。我们认为，Groq 本质上体现对交互式 Agentic AI 趋势未来主流化的押注：在这一趋势下，性能评价指标正从“每单位价格所能处理的总 token 数量”转向“单次请求的响应速度”。与以训练和高吞吐批处理为核心优化目标的英伟达 GPU 不同，Groq 从设计开始即围绕实时、交互式推理场景进行设计，其核心价值主张在于 Determinism（确定性）。LPU 采用编译器驱动（compiler-driven）架构，在编译期对所有指令执行与内存访问进行预调度，从而消除动态调度所带来的不可预测的时延抖动（jitter）。本质上，Groq 以数学和逻辑可控的执行时序，取代传统硬件的概率性执行，从而压低 Batch Size = 1 场景下的“时延下限”。我们认为，当前 AI 计算正在发生结构性分化，将逐步演化为以训练导向以及以部署导向的两条技术路径。其中，英伟达路线本质上是“吞吐优先”：依托大容量 HBM 与复杂的动态调度机制，最大化系统层面的批处理吞吐能力（即单位时间内处理的总 token 数量）。这一架构在模型训练及异步、批量推理场景中具备最优性。相对应地，Groq 路线则是“时延优先”：其目标客户为对“Time to First Token（第一个 token 的响应时间）”以及对 token 间时延高度敏感的实时、交互式的 Agentic AI 应用。通过移除动态硬件管理的系统开销，Groq 可实现小于 100ms 级的实时响应，满足自然人机交互对即时性的要求。从产业分工角度看，我们认为 Groq 与英伟达并非替代关系，而是高度互补。Groq 更像是 AI 生命周期中推理阶段的专用计算层，服务于时延敏感型部署场景；而英伟达依旧是 AI 模型训练及高吞吐批量推理的通用标准，在大规模并行计算与内存密集型工作负载中具备不可替代的优势。我们认为英伟达架构在以超大内存容量与并行吞吐的场景中占据优势，而 Groq 正逐步成为时延敏感型推理的参考架构，为高性能的交互式部署提供支撑。

问题 2：Groq 架构如何区别于 GPU 范式，从而实现确定性的时延优势？

Groq 的性能优势源于其以编译器为先的设计理念，即将控制从硬件侧转移至软件侧。相较之下，英伟达 GPU 需要依赖运行时调度机制，在多任务并发过程中动态协调计算与存储资源。在 Groq 架构下，LPU 本质上仅负责严格执行预先生成的指令与访存计划，硬件层面不再引入缓存与动态仲裁等不确定性机制，从而有效消除运行时抖动（jitter）。基于这一确定性执行模型，Groq 构建可同步扩展的 Scale-up 计算域，最多可将 576 颗芯片整合为一个同步运行的单一逻辑处理器（Mega-Chip）。

我们认为，Groq 的架构优势并非体现在“更快”的单一性能指标上，而是一种结构性差异。其核心取舍在于：主动放弃以 HBM 为核心、强调算力密度的 GPU 架构，转而采用以 SRAM 为核心的静态执行体系，以换取更低时延与更强的确定性。在以交互响应速度与一致性作为主要价值驱动的应用场景中，该取舍使 Groq 具备显著的系统级竞争优势。从架构层面看， Groq 相较传统 GPU 范式，主要体现在以下三项关键性的结构差异：

1）以 SRAM 为中心的存储架构（规避 HBM 瓶颈）

传统 GPU 普遍依赖外置 HBM 作为主存储，尽管具备较高容量（如 B300 约 288GB），其访问过程仍不可避免受到缓存未命中、内存控制器争用及刷新周期等因素影响，从而引入非确定性的时延抖动。相比之下，Groq 的 LPU 通过移除外部存储、在单芯片内集成约 230MB 高速 SRAM，将内存访问时延压缩至 10ns 以下，并实现 80TB/s 的确定性内存带宽，显著高于 HBM3E 约 8TB/s 的水平。该架构确保模型权重与激活数据可在计算所需时被精准、按时供给，从结构上削弱“内存墙”对推理场景的制约。但我们亦注意到，单颗 LPU 片上存储容量相对有限，大模型部署须依赖多芯片规模化扩展。例如，在 INT8 精度下部署一个 70B 参数模型（约需 70GB 内存），Groq 需配置约 576 颗芯片（系统通常由 8 个机架、每架 72 颗芯片构成）以满足 SRAM 容量需求。我们认为，这一显著的资本与系统规模投入，本质上反映以牺牲存储密度换取确定性低时延所需承担的成本。

2）编译期的确定性调度（“零抖动”模型）

GPU 广泛采用运行时硬件调度机制（如 warp 调度器（warp schedulers,）、重排序缓冲区（reorder buffers）等），以在执行过程中动态管理数以千计的线程与指令流。当某一线程因等待 HBM 访问而阻塞时，调度器会切换至其他线程以提升整体吞吐率。该机制在高并发负载下有助于充分释放算力潜能，但也引入随机性的时延抖动。实际执行时间取决于运行时的缓存状态与资源争用情况。因此，在 Batch Size = 1 场景下，GPU 往往因内存时延与 kernel 启动开销而严重欠利用。

Groq 将系统控制权由硬件运行时调度前移至软件与编译阶段。其自研编译器 GroqWare 在模型部署前，对完整计算图进行静态解析与全局调度，提前确定每一条指令、每一次存储访问及数据传输在时序上的精确位置，从而消除运行时的不确定性（Zero Tail Latency）。在此基础上，Groq 实现严格的确定性执行特征，系统不存在长尾时延问题，P99 时延与中位时延基本一致。该能力在对话式智能体、实时推理等企业级应用场景中尤为关键：此类场景对响应一致性与时延可预测性要求极高，任何不可预期的卡顿都会直接影响用户体验。

3）软件定义的芯片互连（RealScale）

在 GPU 体系中，多卡扩展通常依赖 NVLink 或 InfiniBand 等网络互连方式，其底层仍涉及分组交换（packet switching）、握手（handshakes）等机制，因而不可避免地造成拥塞与不确定延迟。随着大模型参数持续扩大，单芯片已难以承载完整模型，而多 GPU 集群中的互联开销正逐步成为系统瓶颈。我们认为，Groq 的 RealScale 互连体系采用由编译器统一调度的芯片直连结构。由于编译器能够精确掌握数据在不同芯片间的发送与到达时间，系统可在无冲突、无缓冲的条件下完成数据传送。RealScale 使 Groq 能够在单一 Mega-Chip 中实现线性扩展，并协同多芯片系统同步运行。但我们认为，该同步系统的上限约为 576 颗芯片，超过该规模后仍需回退至标准以太网（Ethernet）互连。但在 576 颗芯片规模内， Groq 能够实现 GPU 架构难以达到的、低时延的甚至完全同步的并行推理。

问题 3：Groq 的存储配置、互连（Scale-Up 与 Scale-Out）及软件架构如何支撑低时延推理？其设计选择在结构层面与英伟达 GPU 有何差异？

我们认为，Groq 的系统架构更接近一件为特定工作负载打造的“精密仪器”，其优化目标高度聚焦于对时延极度敏感的 Batch Size = 1 推理场景，并在由 576 颗芯片 Scale-up 的系统中表现最优。相比之下，英伟达 GPU 更接近于一套通用型算力引擎，目标是在不同规模、不同负载形态下最大化吞吐与容量，并依托成熟的软件生态，在 FP4/FP6/FP8 等硬件原生精度支持上具备更强的灵活性（如 B300 所体现的能力）。

1）存储配置：速度 vs. 容量间的取舍

我们认为，存储体系的结构性差异是 Groq与 GPU时延差距的最核心因素。Groq采用 SRAM 设计，其 LPU 单芯片内集成约 230 MB 片上 SRAM，作为模型参数的主存储介质，存储带宽高达 80 TB/s。通过移除外置 HBM，Groq 避免任何跨芯片访存所带来的不可控时延，使权重访问可在<10 ns 的确定性窗口内完成；这一特性对于维持 Batch Size = 1 场景下的高利用率至关重要。相比之下，以 B300 为代表的英伟达 GPU 依赖 288 GB 外置 HBM3E，在提供较高容量的同时，其带宽规模约为 8 TB/s。GPU 的设计逻辑在于最大化容量密度（以更少芯片容纳更大模型），从而提升吞吐效率；而 Groq 则主动放弃内存容量以换取极低时延。这一取舍也意味着，Groq 在承载大模型时需通过多芯片系统（例如 576 颗芯片容纳一个 70B 模型），其扩展目的在于补足 SRAM 容量本身的物理限制。

2）Scale-Up 互连：RealScale vs. NVLink

我们认为，若需要将多芯片组成一个同步的 Mega-Chip，需要一套高效的互联体系。Groq 采用 RealScale 互连，可最多支持 576 芯片（8 个 GroqRack）组成的同步系统。GroqWare 编译器将网络互联的收发单元视作“功能单元”，把数据传输编排在特定时钟周期内。由于数据传输计划在编译期已被完全确定，即便在跨数百芯片完成模型参数计算时，系统仍可维持亚微秒级时延（sub-microsecond latency）。相比之下，英伟达 B300 采用第五代 NVLink，单 GPU 提供约 1.8 TB/s 双向带宽。NVLink 的优势在于极高吞吐能力，但其调度依赖硬件仲裁机制，更适合大批量数据传输（尤其是训练场景）。从设计目标上看，NVLink 面向带宽优先的规模化计算，而 RealScale 则定位于时延更敏感的推理任务。

3）Scale-Out：Groq 的确定性扩展能力存在明确的物理边界（Determinism Cliff）

我们认为 Groq 的 Scale-Up 通常止步于 576 芯片互联；超过此规模，系统需退回至标准以太网进行扩展。我们认为，越过此“物理边界”后，Groq 不可避免地重新引入其原本试图规避的网络抖动和非确定性时延，限制其架构效率。相比之下，英伟达采用 InfiniBand 与 Spectrum-X 用于集群级扩展。以 B300 系统为例，其通过计算与通信重叠以及大规模批处理来容忍网络波动，从而在 Scale-out 的训练与批量推理工作负载中，以可接受的时延波动换取极高的吞吐能力。

4）软件生态与数值精度：GroqWare vs. CUDA

软件栈决定硬件精度能力在实际推理中的使用方式。GroqWare 并未对模型采取统一量化路径（如整体强制 INT8），而是基于算子与数值敏感度实施差异化的精度管理策略。例如， Attention logits（Softmax 输入）仍维持 FP32 精度，以避免微小数值误差在长序列中被放大；MoE 权重则采用 Block Floating Point 形式，在牺牲部分精度的同时保留量级尺度；同时，Groq 引入 TruePoint 数值体系，通过约 100 bits 的高精度中间累加抑制量化噪声。在权重与激活值层面，Groq 主要支持 INT8 与 FP16，并依托 TruePoint 的高精度累加机制缓解量化误差影响。当前，Groq 尚未采用 GPU 体系下的 FP8 硬件算子，而是通过这一混合精度路径，在维持模型精度的前提下，相较 BF16 实现约 2-4 倍的性能提升。而英伟达在硬件层面原生支持 FP4、FP6，并同时覆盖 FP8、BF16 与 FP32 等多种数值格式，其软件生态（CUDA、TensorRT-LLM）成熟且高度灵活，开发者可在完善的库与工具链支持下，自主选择并调优不同精度组合。与之相比，Groq 软件生态更为封闭，精度控制在更大程度上由编译器侧（如 TruePoint 体系）统一管理，开发者手动调节空间相对有限。

问题 4：Groq 架构的主要结构性约束与经济性限制是什么？

我们认为，Groq 的 LPU 架构面临两项核心约束：其一是限制同步扩展能力的明确物理边界（Determinism Cliff），其二是由 SRAM 带来的昂贵资本与运行开支（SRAM Tax）；其在初始资本开支层面显著高于英伟达平台，但在以交互速度作为核心价值的 Agentic 经济中，更胜一筹。在此类场景下，Groq 在 Batch Size = 1 条件下仍能维持较高算力利用率，使其在部分对实时性要求极高的应用场景中，具备相对可竞争的总体拥有成本（TCO）。从本质上看，Groq 并非一项“算力最大化”投资，而是一项以客户体验为核心的系统性投入。尽管 SRAM 架构在模型规模与物理部署上存在天然约束，但其低时延的特性，为高实时要求的应用提供一条可验证的商业化路径，从而在特定场景下合理化较高的前期资本投入。

1）“确定性孤岛”（Determinism Island）边界：Scale-Out 的结构性约束

Groq 的核心技术优势（指令级确定性执行）在物理上受限于其互连体系。我们认为，Groq 的 RealScale 互连在 576 颗芯片规模内，构成一个近乎理想的同步执行环境：所有计算与通信时序均在编译期被精确规划。然而，当模型规模进一步扩大（如万亿参数级别），系统不可避免地需要将多个 576 芯片域通过标准以太网进行连接。此时，网络拥塞、数据缓冲与不可预测的抖动重新出现，其在超大模型场景下的核心价值也随之被削弱。

2）SRAM 带来的高资本开支强度（SRAM Tax）

我们认为，Groq 选择 SRAM 而非 HBM 作为主存储介质，在时延上带来优势的同时，也在前期资本投入具备较高代价。以 70B 参数模型（INT8）为例，Groq 需要部署 576 颗 LPU、共 8 个机架，仅用于提供约 70 GB 的 SRAM 容量；相比之下，同一模型在英伟达平台仅需 1-2 张 B300 GPU（单卡 288 GB HBM3E）。从资本开支角度测算，70B 模型下，Groq 集群的硬件投入约 300 万美元（约 5 千美元单颗芯片）；而英伟达双 B300 卡配置仅需约 8 万美元（即便考虑以 8 卡构成的完整服务器节点，成本亦约 40 万美元）。在 1T 参数模型场景下（1000GB SRAM 需求），这一差距进一步放大：Groq 需约 3,000 万美元的部署成本，而英伟达仍可在单节点内完成（8 卡服务器），资本投入维持在 40 万美元量级。需要强调的是，上述测算仅用于说明数量级差异，而非精确成本对比。但可以明确的是，该差异同时意味着 Groq 在功耗、散热、布线以及数据中心占地面积等方面承担显著更高的系统性开销。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）