2023年半导体行业专题报告 GPGPU的壁垒是什么？

来源：中信证券
发布时间：2023/02/22
浏览次数：720
举报

相关深度报告REPORTS

半导体行业专题报告：ChatGPT对GPU算力的需求测算与相关分析.pdf

半导体行业专题报告：ChatGPT对GPU算力的需求测算与相关分析。1.短期内GPU增量与市场规模：参考OpenAI算法，假设每日1亿用户，每人进行10条交互，每个问题的回答长度为50词，算力利用率30%，则单个大语言模型（LLM）的日常需求有望带来2.13万片A100的增量，对应市场规模2.13亿美元。假设有5家大企业推出此类LLM，则总增量为10.7片A100，对应市场规模10.7亿美元。2.短期服务器增量与市场规模：单个服务器包含8个GPU，因此单个LLM带来2669台服务器需求，对应市场规模3.39亿美元，5家大企业共需要13345台，对应市场规模20亿美元。3.长期市场空间：参考谷歌...

1. ChatGPT是什么——OpenAI开发的聊天机器人，拥有创造能力

生成式AI：实现创造，部分领域的能力超越人类的基准水平

不同于分析式AI只能做些分析型或机械式的认知计算，生成式AI可以创造有意义并具备美感的东西，而且在某些情况下，其生成的结果可能比人类手工创造的还要好。机器可以分析数据，并针对不同用例需求找到相应的规律，且在不断迭代，变得越来越聪明，这种机器被称为“分析式人工智能” （Analytical AI），或者传统AI。机器并非如之前那样仅分析已有的数据，而是创造了全新的东西，这一新型的AI被称为“生成式人工智能”（Generative AI）。 2017年谷歌推出一种用于自然语言理解的新型神经网络架构——Transformers模型，不但能生成质量上乘的语言模型，同时具有更高的可并行性，大大降低了所需的训练时间。这些小样本学习模型，可以更容易地针对特定领域做定制修改。 2015-2020年，用于训练这些模型的计算量增加了6个数量级，其表现在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的基准水平。

预训练模型：大模型提高准确率，2018年开始步入快车道

预训练模型使得模型的训练可以被复用，大幅降低训练成本，但是前期需要大量的数据进行预训练。预训练模型是一种迁移学习的应用，对句子每一个成员的上下文进行相关的表示，通过隐式的方式完成了语法语义知识的学习。预训练模型通过微调的方式具备很强的扩展性，每次扩展到新场景时，只需要针对这个场景的特定标注数据进行定向的学习，便可以快速应用。

ChatGPT：基于OpenAI推出的深度学习模型GPT打造，成为迄今增长最快的消费应用程序

ChatGPT（Chat Generative Pre-trained Transformer，聊天生成式预训练器）是OpenAI开发的聊天机器人，于2022年11月推出。它建立在 OpenAI开发的GPT-3大型语言模型之上，并使用监督学习和强化学习（人类监督）技术进行了微调。虽然聊天机器人的核心功能是模仿人类谈话者，但ChatGPT是多功能的。例如，它可以编写和调试计算机程序，创作音乐、电视剧、童话故事和学生论文；回答测试问题(有时根据测试的不同，答题水平要高于平均水平)；写诗和歌词；模拟Linux系统；模拟整个聊天室等。

ChatGPT背后的公司为OpenAI，成立于2015年，由特斯拉CEO埃隆·马斯克、PayPal联合创始人彼得·蒂尔、Linkedin创始人里德·霍夫曼、创业孵化器Y Combinator总裁阿尔特曼（Sam Altman）等人出资10亿美元创立。OpenAI的诞生旨在开发通用人工智能（AGI）并造福人类。 ChatGPT中的GPT（Generative Pre-trained Transformer），是OpenAI推出的深度学习模型。ChatGPT就是基于GPT-3.5版本的聊天机器人。截至2022年12月4日，OpenAI估计ChatGPT用户已经超过100万；2023年1月，ChatGPT用户超过1亿，成为迄今增长最快的消费应用程序。 2023年2月，OpenAI开始接受美国客户注册一项名为ChatGPT Plus的高级服务，每月收费20美元；此外，OpenAI正计划推出一个每月42美元的ChatGPT专业计划，当需求较低时可以免费使用。

算力需求：计算资源每3~4个月翻一倍，投入资金指数级增长

OpenAI预计人工智能科学研究要想取得突破，所需要消耗的计算资源每3~4个月就要翻一倍，资金也需要通过指数级增长获得匹配。在算力方面，GPT-3.5在微软Azure AI超算基础设施（由V100GPU组成的高带宽集群）上进行训练，总算力消耗约 3640PF-days（即每秒一千万亿次计算，运行3640天）。在大数据方面，GPT-2用于训练的数据取自于Reddit上高赞的文章，数据集共有约800万篇文章，累计体积约40G；GPT-3模型的神经网络是在超过45TB的文本上进行训练的，数据相当于整个维基百科英文版的160倍。

2. GPGPU是什么——通用计算GPU，算力强大，应用于加速计算场景

GPU是什么？

GPU（Graphics Processing Unit，图形处理器）：是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256（GeForce 256）绘图处理芯片时首先提出的概念。 GPU应用场景。图形加速：此时GPU 内部的顶点渲染、像素渲染以及几何渲染操作都可以通过流处理器完成。通用计算：计算通常采用CPU+GPU异构模式，由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算，由GPU负责计算密集型的大规模数据并行计算。

从GPU到GPGPU的跨越，英伟达CUDA降低开发门槛

GPGPU（general-purpose GPU，通用计算图形处理器），利用图形处理器进行非图形渲染的高性能计算。为了进一步专注通用计算， GPGPU去掉或减弱GPU的图形显示部分能力，将其余部分全部投入通用计算，实现处理人工智能、专业计算等加速应用。 2007年6月，NVIDIA推出了CUDA（Computer Unified Device Architecture计算统一设备结构）。 CUDA是一种将GPU作为数据并行计算设备的软硬件体系。在CUDA 的架构中，不再像过去GPU架构那样将通用计算映射到图形API中，对于开发者来说，CUDA 的开发门槛大大降低了。 CUDA 的编程语言基于标准C，因此任何有C 语言基础的用户都很容易地开发CUDA 的应用程序。由于这些特性，CUDA在推出后迅速发展，被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。

2020年GPU全球市场254亿美元，独显市场英伟达份额约80%

根据Verified Market Research数据，2020年，全球GPU市场规模为254.1亿美元（约1717.2亿人民币）。随着需求的不断增长，预计到2028年，这一数据将达到2465.1亿美元（约1.67万亿人民币），年复合增长率为32.82%。

市场研究机构Jon Peddie Research的最新数据显示，2022年二季度，全球独立GPU市场出货量同比增长 2.4% 至 1040 万台，但是较一季度环比则下滑了22.6%。从市场份额来看，英伟达的独立GPU的市场份额从22Q1的75%增加到22Q2的79.6%，保持了与去年同期相当的份额。 AMD和Intel则分别占比20%/1%。

中国市场，GPU服务器在AI服务器中占比92%，占主导地位

据IDC数据，2021年，全球AI服务器市场规模达156亿美元，同比增长39.1%；IDC预测，2025年全球AI服务器市场规模将达317.9亿美元，年复合增长率为19%。 IDC报告显示，2021年中国加速服务器市场规模达到53.9亿美元（约350.3亿人民币），同比+68.6%；预计到2026年将达到103.4亿美元。年复合增长率为19%，占全球整体服务器市场近三成。根据IDC数据，2021年，GPU服务器以91.9%的份额占国内加速服务器市场的主导地位；NPU、ASIC和FPGA等非GPU 加速服务器占比8.1%。IDC预计2024年中国GPU服务器市场规模将达到64亿美元。从行业的角度看，互联网依然是最大的采购行业，占整体加速服务器市场近60%的份额；2021年，用于推理工作负载的加速服务器占比已经达到57.6%，预计到2026年将超过60%。

3. GPGPU的壁垒是什么——高精度浮点计算+CUDA生态

壁垒一——高精度浮点计算

CPU是串行处理器，而GPU是并行处理器。在机器学习中，绝大多数任务会涉及到耗费时间的大量运算，而且随着数据集的增加，运算量会越来越大。解决这个问题的一个方法就是使用多线程并行计算。 CUDA 核能够以相对稍慢的速度运行，但是能够通过使用大量运算逻辑单元（ALU）来提供很大的并行度。每个 GPU 核都能运行一个独立的线程，对于矩阵相乘运算来说大大缩短了计算时间。对于每个小片的结果可以由一组线程负责，其中每个线程对应小片中的一个元素。这个线程组将 A 的行小片和 B 的列小片一一载入共享内存，在共享内存上对其做矩阵相乘，然后叠加在原有结果上。所以对于 2000×2000 的矩阵乘法，只需要 2000 次并行运行。但是对于CPU来说，因为是串行计算的，所以需要4000000次运行。

人工智能的实现包括两个环节：推理(Inference)和训练(Training)

训练需要密集的计算得到模型，没有训练，就不可能会有推理。训练是指通过大数据训练出一个复杂的神经网络模型，通过大量标记过的数据来训练相应的系统得到模型，使其能够适应特定的功能。训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性，以便完成各种各样的学习任务（大数据分析淘宝推荐“你可能感兴趣的产品”模型）。推理是指利用训练好的模型，使用新数据推理出各种结论。借助神经网络模型进行运算，利用输入的新数据来一次性获得正确结论的过程。这也有叫做预测或推断（用户打开手机被推送“可能感兴趣的产品”）。

AI推理端：浮点型量化为整形数据，降低算力、加速推理、降低功耗

量化是通过一组离散符号或整数值去逼近一个连续信号的过程，利用低比特量化(权重或激活)可以在不影响精度的前提下加快推理阶段。随着模型越来越大，需求越来越高，模型的量化自然是少不了的一项技术。在低比特表达中（如FP16、INT16、FP8、INT8、INT4等），INT8因兼顾效率和精度，而被广泛采用。一方面，INT8的运行速度是 FP16/INT16的两倍，并且相比FP8，能被更多的硬件设备支持。另一方面，INT8的量化范围（-128~127）比INT4（-8~7）或其它更低的比特（小于4比特）大，表达能力更强。经过INT8量化后的模型：模型容量变小了，FP32的权重变成INT8，大小直接缩了4倍模型，运行速度可以提升，使用INT8的模型耗电量更少，对于嵌入式侧端设备来说提升巨大。

4. GPGPU主要应用场景——AI计算和高性能计算

GPGPU在计算领域应用：AI计算和高性能计算

GPU在通用计算领域分为两种应用场景，人工智能 (AI) 计算和高性能计算（HPC）。AI所需的计算力不需要太高精度。一些AI应用需要处理的对象是语音、图片或视频，运行低精度计算甚至整型计算即可完成推理或训练。智能计算机是一种专用算力，它们在推理或训练等智能计算方面的确表现出色，但由于AI推理或训练一般仅用到单精度甚至半精度计算、整型计算，多数智能计算机并不具备高精度数值计算能力，这也限制其在AI计算之外的应用场景使用。英伟达新推出的H100芯片搭载Transformer 引擎，使用每层统计分析来确定模型每一层的最佳精度（FP16 或 FP8），在保持模型精度的同时实现最佳性能，相较于上一代产品提供 9 倍的训练吞吐量，性能提升6倍。

高性能计算是一种通用算力，设计目标是提供完备、复杂的计算能力，在高精度计算上能力更强。应用场景包括行星模拟、分子药物设计等。超级计算机主要测试的是双精度浮点运算能力(FP64)。对比单精度(32位，FP32)、半精度(16位，FP16)以及整数类型(如INT8、INT4)等，数字位数越高，意味着人们可以在更大范围内的数值内体现0/1两个数值的变化，从而实现更精确计算。

AI芯片的三种较为主流的技术路线——GPU、FPGA和ASIC

AI芯片被称为AI加速器或计算卡，即专门用于加速AI应用中的大量计算任务的模块（其他非计算任务仍由CPU负责），面向AI计算应用的芯片都可以称为AI芯片，包括GPU、FPGA、ASIC等。

FPGA更适合处理多指令流单数据流，从而适应于推理阶段

FPGA没有极致的性能特点与量产单价高是其未来发展的瓶颈，更适合用于细分、快速变化的垂直行业，应用面上较为狭窄。优点：1. 突破冯诺依曼结构，可直接实现算法，没有指令译码和解读的过程，功效能耗比是CPU的10倍以上、GPU的3倍，处理速度和效率要高于GPU。2. 可编译，灵活性很高，开发周期短。FPGA具有可编辑性，用户可以根据自身需求实现芯片功能的转换。基于FPGA灵活编译的特点，其开发周期较短，上市速度快。FPGA更适合处理多指令流单数据流，从而适应于推理阶段。缺点：1. 价格较高，规模量产后的单价更是远高于ASIC。目前FPGA的造价相比GPU更为高昂，如果规模量产后，其不像ASIC可以分摊固定成本，存在单个芯片的编译成本，所以单价远高于ASIC。2. 计算能力和峰值性能不如GPU。 3. 灵活性占优的同时牺牲了速度与能耗。效率和功耗上劣于专用芯片ASIC。4. FPGA的语言技术门槛较高。目前FPGA的设置要求用户用硬件描述语言对其进行编程，需要专业的硬件知识，具有较高的技术门槛。

5. 国内GPGPU发展水平——落后海外5~10年，多点开花寻求突破

制造：目前国内AI芯片先进工艺多集中在7nm，国际大厂已经来到4nm

大陆的先进工艺设计（16nm及以下）集中于AI芯片（包含云端及智能驾驶芯片）、交换机芯片、CPU/GPU/DPU、矿机ASIC领域，这些领域各有一些头部企业走在前列，但鲜有企业能够进入个位数先进制程。GPGPU和AI芯片因为去掉了图形渲染功能，功能相对单一，设计起来复杂度及难度较低。先进制程芯片的设计成本大幅增加。设计一颗28nm芯片成本约5000万美元，而7nm芯片需要3亿美元，5nm则需要5.42亿美元。若以麒麟的5nm工艺来对标，除了矿机ASIC中的比特大陆推出了基于最先进的5nm的矿机芯片，平头哥发布了自研5nm服务器芯片倚天710，中兴通讯的7nm芯片已实现商用正在研发5nm芯片之外，其他领域快的如有些国内自动驾驶芯片公司要量产7nm智能座舱芯片，互联网巨头的一些AI芯片在向5nm迈进，CPU/GPU/DPU领域大多企业还只是规划向5nm迈进，大多数节点还在16nm或10nm之上，真正实现5nm芯片量产的较少。

IP：国内核心IP厂商，追赶国际厂商

自研IP越多，芯片设计上越有把握，产品的差异化更明显。但相对而言，资金、人员、时间上的成本投入也更高。 GPU IP自研需要36-48个月以及200个工程师，而采用外购IP的方式，可以减少12-18个月开发周期。据集微网报道，GPU 的IP主要涉及三大类，一是模拟IP，包括PCIe、Displayport和HDMI等等，这方面国内厂商占有率较低；二是 Memory；三是数字IP，包括基于Arm或RISC-V的微控制器IP、编解码芯片IP以及最核心的GPU IP等。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）