GPU行业及技术趋势有哪些?

GPU行业及技术趋势有哪些?

最佳答案 匿名用户编辑于2023/07/17 11:20

架构方面,则体现出核心数增加以及专用架构设计两大趋势。

1.行业趋势:下游逐渐丰富,数据中心成为新支柱

近年来GPU的一大发展趋势是是下游行业应用有所扩展,不再以游戏卡为单一支柱。 从行业龙头英伟达的营收结构我们可以看到 GPU 行业的一些发展趋势,尤其是数据中心 的 GPU 使用量大幅增加,2016-2021 年,英伟达数据中心业务收入增长 10 倍以上。2022年由于 PC 市场下行等因素,游戏市场出现下滑,但数据中心市场仍旧维持增长,成为占 比最高的业务。此外随着智能辅助驾驶逐渐落地,产业景气度回升,搭载英伟达 Orin 芯片 的理想 L8/L9、小鹏 G9 等车型销量逐渐增加,2022 年英伟达汽车业务出现了幅度较大的 增长,未来汽车业务有望进一步实现突破。伴随新产业支柱的成长,围绕新行业的新软件生态也将得到进一步发展。例如汽车业 务领域,驾驶仿真产品 NVIDIA DRIVE Sim、NVIDIA DRIVE Constellation;元宇宙平台 NVIDIA Omniverse 等。

2.技术趋势:GPGPU+DSA,核心更多+架构更专

技术方面,GPU 行业呈现出两大趋势,第一是核心数持续扩张支撑算力提升,第二 是 DSA(特定领域专用架构)的发展。在摩尔定律日渐式微的当下,CPU 单核微架构也趋于成熟,然而 GPU 算力增速仍然 远超 CPU,其原因就在于 GPU 专注并行计算,可以通过大幅增加核心数的方法来增加算 力。2010 年 Fermi 架构包含 16 个 SM,总共 512 个计算核心。而 2022 年的 Hopper 完 整架构已经具备 144 个 SM,每个 SM128 个 FP32 核心,总计 18432 个核心,是 Fermi 架构的 36 倍,基本维持了 2 年扩张一倍的节奏。

DSA 方面的体现则更多,延续了牺牲通用性换取高性能的思路。以英伟达首次搭载 硬件光追技术的图灵架构为例,与 2010 年的费米架构对比,除了每个 SM 配备一个光线 追踪单元以外,还给每 12 个 SM 配备了一个专门用于光栅化计算的光栅化引擎;同时每 个 SM 配备了 4 个张量运算核心专门用于矩阵运算加速;每个 SM 配备 4 个纹理采样单元专门用于加速纹理填充运算;原本整数浮点二合一的运算核心现在被拆分开,浮点核心占 据了更大比重。此外,游戏卡未配备 FP64 运算能力,而 GPGPU 则具备 FP64 浮点单元。

其中比较值得注意的是 Tensor Core,这一架构能够大大加速矩阵运算,是 AI 时代 几乎必备的架构。Tensor Core 与谷歌 TPU(Tensor Processing Unit)、地平线 BPU 等 AI 专用芯片思路一致,都采用大量的矩阵运算单元。其中谷歌初代 TPU 的矩阵乘法单元 占据了 24%的芯片面积,而谷歌第四代 TPU 更用了 8 个矩阵运算单元。这些张量运算单 元采用的都是脉动阵列技术,即将乘法器和寄 存器组合在一起,并排成方阵形式,参与矩阵乘法的两个矩阵分别逐行、逐列进入运算阵 列的左侧,并向矩阵运算的右侧传播,这样每次可以算出一条副对角线上的计算结果,速 度大大加快,同时数据仅在阵列内部流动,减少与内存的交互,大大提高性能,降低功耗。

从实际测试结果来看,谷歌 TPU 在功耗仅为 CPU 的到 1/3 的情况下,提供了超过 35 倍的 INT8 算力,综合能效达到 CPU 的百倍以上。按照 INT8 算力为浮点算力 2 倍来计算, 则 TPU 的能效达到 K80 GPU 的 40 倍。通过践行 DSA 理念,发展 Tensor Core 架构,2012-2020 年的 8 年期间,英伟达单 芯片 AI 推理性能增长 317 倍,远高于同期核心数增长量,很大程度上拉近了与 TPU 等专 用硬件的距离。

通过践行 DSA 理念,发展 Tensor Core 架构,2012-2020 年的 8 年期间,英伟达单 芯片 AI 推理性能增长 317 倍,远高于同期核心数增长量,很大程度上拉近了与 TPU 等专 用硬件的距离。

综合来看,DSA(包括 Tensor Core 等)已经成为 AI 时代算力建设的必要选项,预计 未来将持续得到发展。

参考报告

景嘉微分析报告:信创基石,从图形计算到通用计算.pdf

景嘉微分析报告:信创基石,从图形计算到通用计算。公司是我国机载显示模块与国产GPU龙头,近年来业绩实现高增。景嘉微主要业务为图形显控模块、小型专用化雷达以及GPU芯片三大领域。公司是我国最早系统性研发GPU的企业,也是国内目前唯一自研GPU芯片量产出货的A股上市公司。GPU:并行计算加速硬件,算力与软件支持是关键。1)GPU在CPU的基础上牺牲一定的通用性来换取并行计算形象,核心要求在于足够强的性能以及足够的兼容性与可用性。软件生态方面对国产GPU企业来说要求更高,直接决定产品的可用性,其中对于图形GPU来说,最重要的是兼容图形API,对GPGPU来说,需要重点兼容通用计算标准。2)GPU未来...

查看详情
相关报告
我来回答