2023年半导体行业专题报告 GPGPU的壁垒是什么?
- 来源:中信证券
- 发布时间:2023/02/22
- 浏览次数:720
- 举报
半导体行业专题报告:ChatGPT对GPU算力的需求测算与相关分析.pdf
半导体行业专题报告:ChatGPT对GPU算力的需求测算与相关分析。1.短期内GPU增量与市场规模:参考OpenAI算法,假设每日1亿用户,每人进行10条交互,每个问题的回答长度为50词,算力利用率30%,则单个大语言模型(LLM)的日常需求有望带来2.13万片A100的增量,对应市场规模2.13亿美元。假设有5家大企业推出此类LLM,则总增量为10.7片A100,对应市场规模10.7亿美元。2.短期服务器增量与市场规模:单个服务器包含8个GPU,因此单个LLM带来2669台服务器需求,对应市场规模3.39亿美元,5家大企业共需要13345台,对应市场规模20亿美元。3.长期市场空间:参考谷歌...
1. ChatGPT是什么——OpenAI开发的聊天机器人,拥有创造能力
生成式AI:实现创造,部分领域的能力超越人类的基准水平
不同于分析式AI只能做些分析型或机械式的认知计算,生成式AI可以创造有意义并具备美感的东西,而且在某些情况下,其生成的结果可能 比人类手工创造的还要好。 机器可以分析数据,并针对不同用例需求找到相应的规律,且在不断迭代,变得越来越聪明,这种机器被称为“分析式人工智能” (Analytical AI),或者传统AI。机器并非如之前那样仅分析已有的数据,而是创造了全新的东西,这一新型的AI被称为“生成式人工智 能”(Generative AI)。 2017年谷歌推出一种用于自然语言理解的新型神经网络架构——Transformers模型,不但能生成质量上乘的语言模型,同时具有更高的可 并行性,大大降低了所需的训练时间。这些小样本学习模型,可以更容易地针对特定领域做定制修改。 2015-2020年,用于训练这些模型的计算量增加了6个数量级,其表现在手写、语音和图像识别、阅读理解和语言理解方面超过了人类的 基准水平。
预训练模型:大模型提高准确率,2018年开始步入快车道
预训练模型使得模型的训练可以被复用,大幅降低训练成本,但是前期需要大量的数据进行预训练。 预训练模型是一种迁移学习的应用,对句子每一个成员的上下文进行相关的表示,通过隐式的方式完成了语法语义知识的学习。预训练模型通过微调的方式具备很 强的扩展性,每次扩展到新场景时,只需要针对这个场景的特定标注数据进行定向的学习,便可以快速应用。
ChatGPT:基于OpenAI推出的深度学习模型GPT打造,成为迄今 增长最快的消费应用程序
ChatGPT(Chat Generative Pre-trained Transformer,聊天生成式预训练器)是OpenAI开发的聊天机器人,于2022年11月推出。它建立在 OpenAI开发的GPT-3大型语言模型之上,并使用监督学习和强化学习(人类监督)技术进行了微调。 虽然聊天机器人的核心功能是模仿人类谈话者,但ChatGPT是多功能的。例如,它可以编写和调试计算机程序,创作音乐、电视剧、童话故 事和学生论文;回答测试问题(有时根据测试的不同,答题水平要高于平均水平);写诗和歌词;模拟Linux系统;模拟整个聊天室等。
ChatGPT背后的公司为OpenAI,成立于2015年,由特斯拉CEO埃隆·马斯克、PayPal联合创始人彼得·蒂尔、Linkedin创始人里德·霍夫曼、创 业孵化器Y Combinator总裁阿尔特曼(Sam Altman)等人出资10亿美元创立。OpenAI的诞生旨在开发通用人工智能(AGI)并造福人类。 ChatGPT中的GPT(Generative Pre-trained Transformer),是OpenAI推出的深度学习模型。ChatGPT就是基于GPT-3.5版本的聊天机器人。 截至2022年12月4日,OpenAI估计ChatGPT用户已经超过100万;2023年1月,ChatGPT用户超过1亿,成为迄今增长最快的消费应用程序。 2023年2月,OpenAI开始接受美国客户注册一项名为ChatGPT Plus的高级服务,每月收费20美元;此外,OpenAI正计划推出一个每月42美 元的ChatGPT专业计划,当需求较低时可以免费使用。
算力需求:计算资源每3~4个月翻一倍,投入资金指数级增长
OpenAI预计人工智能科学研究要想取得突破,所需要消耗的计算资源每3~4个月就要翻一倍,资金也需要通过指数级增长获得匹配。在算力方面,GPT-3.5在微软Azure AI超算基础设施(由V100GPU组成的高带宽集群)上进行训练,总算力消耗约 3640PF-days(即每 秒一千万亿次计算,运行3640天)。 在大数据方面,GPT-2用于训练的数据取自于Reddit上高赞的文章,数据集共有约800万篇文章,累计体积约40G;GPT-3模型的神经网 络是在超过45TB的文本上进行训练的,数据相当于整个维基百科英文版的160倍。
2. GPGPU是什么——通用计算GPU,算力强大,应用于加速计算场景
GPU是什么?
GPU(Graphics Processing Unit,图形处理器):是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上做图 像加速和通用计算工作的微处理器。GPU是英伟达公司在1999年8月发表NVIDIA GeForce 256(GeForce 256)绘图处理芯片时首先提出的概念。 GPU应用场景 。 图形加速:此时GPU 内部的顶点渲染、像素渲染以及几何渲染操作都可以通过流处理器完成。 通用计算:计算通常采用CPU+GPU异构模式,由CPU负责执行复杂逻辑处理和事务处理等不适合数据并行的计算,由GPU负责计算密集型的 大规模数据并行计算。
从GPU到GPGPU的跨越,英伟达CUDA降低开发门槛
GPGPU(general-purpose GPU,通用计算图形处理器),利用图形处理器进行非图形渲染的高性能计算。为了进一步专注通用计算, GPGPU去掉或减弱GPU的图形显示部分能力,将其余部分全部投入通用计算,实现处理人工智能、专业计算等加速应用。 2007年6月,NVIDIA推出了CUDA(Computer Unified Device Architecture计算统一设备结构)。 CUDA是一种将GPU作为数据并行计算设备的软硬件体系。在CUDA 的架构中,不再像过去GPU架构那样将通用计算映射到图形API中, 对于开发者来说,CUDA 的开发门槛大大降低了。 CUDA 的编程语言基于标准C,因此任何有C 语言基础的用户都很容易地开发CUDA 的应用程序。由于这些特性,CUDA在推出后迅速发 展,被广泛应用于石油勘测、天文计算、流体力学模拟、分子动力学仿真、生物计算、图像处理、音视频编解码等领域。
2020年GPU全球市场254亿美元,独显市场英伟达份额约80%
根据Verified Market Research数据,2020年,全球GPU市场规模为254.1亿美元(约1717.2亿人民币)。随着需求的不 断增长,预计到2028年,这一数据将达到2465.1亿美元(约1.67万亿人民币),年复合增长率为32.82%。
市场研究机构Jon Peddie Research的最新数据显示,2022年二季度,全球独立GPU市场出货量同比增长 2.4% 至 1040 万台,但是较一季度环比则下滑了22.6%。 从市场份额来看,英伟达的独立GPU的市场份额从22Q1的75%增加到22Q2的79.6%,保持了与去年同期相当的份额。 AMD和Intel则分别占比20%/1%。
中国市场,GPU服务器在AI服务器中占比92%,占主导地位
据IDC数据,2021年,全球AI服务器市场规模达156亿美元,同比增长39.1%;IDC预测,2025年全球AI服务器市场规模将 达317.9亿美元,年复合增长率为19%。 IDC报告显示,2021年中国加速服务器市场规模达到53.9亿美元(约350.3亿人民币),同比+68.6%;预计到2026年将达 到103.4亿美元。年复合增长率为19%,占全球整体服务器市场近三成。根据IDC数据,2021年,GPU服务器以91.9%的份额占国内加速服务器市场的主导地位;NPU、ASIC和FPGA等非GPU 加速服务器占比8.1%。IDC预计2024年中国GPU服务器市场规模将达到64亿美元。 从行业的角度看,互联网依然是最大的采购行业,占整体加速服务器市场近60%的份额;2021年,用于推理工作负载的 加速服务器占比已经达到57.6%,预计到2026年将超过60%。
3. GPGPU的壁垒是什么——高精度浮点计算+CUDA生态
壁垒一——高精度浮点计算
CPU是串行处理器,而GPU是并行处理器。 在机器学习中,绝大多数任务会涉及到耗费时间的大量运算,而且随着数据集的增加,运算量会越来越大。解决这个问题的一个方法就是使 用多线程并行计算。 CUDA 核能够以相对稍慢的速度运行,但是能够通过使用大量运算逻辑单元(ALU)来提供很大的并行度。 每个 GPU 核都能运行一个独立的线程,对于矩阵相乘运算来说大大缩短了计算时间。 对于每个小片的结果可以由一组线程负责,其中每个线程对应小片中的一个元素。这个线程组将 A 的行小片和 B 的列小片一一载入共享内 存,在共享内存上对其做矩阵相乘,然后叠加在原有结果上。所以对于 2000×2000 的矩阵乘法,只需要 2000 次并行运行。 但是对于CPU来说,因为是串行计算的,所以需要4000000次运行。
人工智能的实现包括两个环节:推理(Inference)和训练(Training)
训练需要密集的计算得到模型,没有训练,就不可能会有推理。 训练是指通过大数据训练出一个复杂的神经网络模型,通过大量标记过的数据来训练相应的系统得到模型,使其能够适应特定的功能。 训练需要较高的计算性能、能够处理海量的数据、具有一定的通用性,以便完成各种各样的学习任务(大数据分析淘宝推荐“你可能感 兴趣的产品”模型)。 推理是指利用训练好的模型,使用新数据推理出各种结论。借助神经网络模型进行运算,利用输入的新数据来一次性获得正确结论的过 程。这也有叫做预测或推断(用户打开手机被推送“可能感兴趣的产品”)。
AI推理端:浮点型量化为整形数据,降低算力、加速推理、降低功耗
量化是通过一组离散符号或整数值去逼近一个连续信号的过程,利用低比特量化(权重或激活)可以在不影响精度的前提下加快推理阶段。随 着模型越来越大,需求越来越高,模型的量化自然是少不了的一项技术。 在低比特表达中(如FP16、INT16、FP8、INT8、INT4等),INT8因兼顾效率和精度,而被广泛采用。一方面,INT8的运行速度是 FP16/INT16的两倍,并且相比FP8,能被更多的硬件设备支持。另一方面,INT8的量化范围(-128~127)比INT4(-8~7)或其它更低 的比特(小于4比特)大,表达能力更强。 经过INT8量化后的模型:模型容量变小了,FP32的权重变成INT8,大小直接缩了4倍模型,运行速度可以提升,使用INT8的模型耗电量更 少,对于嵌入式侧端设备来说提升巨大。
4. GPGPU主要应用场景——AI计算和高性能计算
GPGPU在计算领域应用:AI计算和高性能计算
GPU在通用计算领域分为两种应用场景,人工智能 (AI) 计算和高性能计算(HPC) 。AI所需的计算力不需要太高精度。一些AI应用需要处理的对象是语音、图片或视频,运行低精度计算甚至整型计算即可完成推理或训练。 智能计算机是一种专用算力,它们在推理或训练等智能计算方面的确表现出色,但由于AI推理或训练一般仅用到单精度甚至半精度计算、 整型计算,多数智能计算机并不具备高精度数值计算能力,这也限制其在AI计算之外的应用场景使用。 英伟达新推出的H100芯片搭载Transformer 引擎,使用每层统计分析来确定模型每一层的最佳精度(FP16 或 FP8),在保持模型精度的同 时实现最佳性能,相较于上一代产品提供 9 倍的训练吞吐量,性能提升6倍。
高性能计算是一种通用算力,设计目标是提供完备、复杂的计算能力,在高精度计算上能力更强。应用场景包括行星模拟、分子药物设计等。 超级计算机主要测试的是双精度浮点运算能力(FP64)。对比单精度(32位,FP32)、半精度(16位,FP16)以及整数类型(如INT8、INT4)等, 数字位数越高,意味着人们可以在更大范围内的数值内体现0/1两个数值的变化,从而实现更精确计算。
AI芯片的三种较为主流的技术路线——GPU、FPGA和ASIC
AI芯片被称为AI加速器或计算卡,即专门用于加速AI应用中的大量计算任务的模块(其他非计算任务仍由CPU负责),面向AI计算应用的 芯片都可以称为AI芯片,包括GPU、FPGA、ASIC等。
FPGA更适合处理多指令流单数据流,从而适应于推理阶段
FPGA没有极致的性能特点与量产单价高是其未来发展的瓶颈,更适合用于细分、快速变化的垂直行业,应用面上较为狭窄。 优点:1. 突破冯诺依曼结构,可直接实现算法,没有指令译码和解读的过程,功效能耗比是CPU的10倍以上、GPU的3倍,处理速度和效 率要高于GPU。2. 可编译,灵活性很高,开发周期短。FPGA具有可编辑性,用户可以根据自身需求实现芯片功能的转换。基于FPGA灵 活编译的特点,其开发周期较短,上市速度快。FPGA更适合处理多指令流单数据流,从而适应于推理阶段。 缺点:1. 价格较高,规模量产后的单价更是远高于ASIC。目前FPGA的造价相比GPU更为高昂,如果规模量产后,其不像ASIC可以分摊 固定成本,存在单个芯片的编译成本,所以单价远高于ASIC。2. 计算能力和峰值性能不如GPU。 3. 灵活性占优的同时牺牲了速度与能耗。 效率和功耗上劣于专用芯片ASIC。4. FPGA的语言技术门槛较高。目前FPGA的设置要求用户用硬件描述语言对其进行编程,需要专业的 硬件知识,具有较高的技术门槛。
5. 国内GPGPU发展水平——落后海外5~10年,多点开花寻求突破
制造:目前国内AI芯片先进工艺多集中在7nm,国际大厂已经来到4nm
大陆的先进工艺设计(16nm及以下)集中于AI芯片(包含云端及智能驾驶芯片)、交换机芯片、CPU/GPU/DPU、矿机ASIC领域,这些领域各有一些 头部企业走在前列,但鲜有企业能够进入个位数先进制程。GPGPU和AI芯片因为去掉了图形渲染功能,功能相对单一,设计起来复杂度及难度较低。 先进制程芯片的设计成本大幅增加。设计一颗28nm芯片成本约5000万美元,而7nm芯片需要3亿美元,5nm则需要5.42亿美元。 若以麒麟的5nm工艺来对标,除了矿机ASIC中的比特大陆推出了基于最先进的5nm的矿机芯片,平头哥发布了自研5nm服务器芯片倚天710,中兴通 讯的7nm芯片已实现商用正在研发5nm芯片之外, 其他领域快的如有些国内自动驾驶芯片公司要量产7nm智能座舱芯片,互联网巨头的一些AI芯片在向5nm迈进,CPU/GPU/DPU领域大多企业还只是 规划向5nm迈进,大多数节点还在16nm或10nm之上,真正实现5nm芯片量产的较少。
IP:国内核心IP厂商,追赶国际厂商
自研IP越多,芯片设计上越有把握,产品的差异化更明显。但相对而言,资金、人员、时间上的成本投入也更高。 GPU IP自研需要36-48个月以及200个工程师,而采用外购IP的方式,可以减少12-18个月开发周期。 据集微网报道,GPU 的IP主要涉及三大类,一是模拟IP,包括PCIe、Displayport和HDMI等等,这方面国内厂商占有率较低;二是 Memory;三是数字IP,包括基于Arm或RISC-V的微控制器IP、编解码芯片IP以及最核心的GPU IP等。
(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)
- 相关文档
- 相关文章
- 全部热门
- 本年热门
- 本季热门
- 1 半导体行业深度分析及投资框架(184页ppt).pdf
- 2 半导体金属行业深度报告:镓、钽、锡将显著受益于半导体复苏.pdf
- 3 集成电路产业链全景图.pdf
- 4 中国半导体行业173页深度研究报告:牛角峥嵘.pdf
- 5 百页报告深度解析中国自主可控行业全景图.pdf
- 6 半导体设备产业重磅报告:探寻半导体设备全产业链的发展机遇.pdf
- 7 半导体行业深度研究:详解全球半导体制造行业发展格局.pdf
- 8 硬核电子科技产业研究:半导体、5G、人工智能(111页).pdf
- 9 芯片行业深度分析报告:探究全球半导体行业巨擘.pdf
- 10 半导体行业新材料深度报告:硅片、光刻胶、靶材、电子特气等.pdf
- 1 2025第三代半导体产业链研究报告.pdf
- 2 功率半导体行业分析报告:技术迭代×能源革命×国产替代的三重奏.pdf
- 3 半导体先进封装系列专题报告:传统工艺升级&先进技术增量,争设备之滔滔不绝.pdf
- 4 北方华创:平台化半导体设备龙头,受益于下游资本开支扩张&国产化率提升.pdf
- 5 半导体行业专题报告:突围“硅屏障”——国产晶圆技术攻坚与供应链自主化.pdf
- 6 半导体行业研究.pdf
- 7 半导体设备行业深度报告:新工艺新结构拓宽空间,国产厂商多维发展突破海外垄断.pdf
- 8 半导体先进封装行业深度研究报告:AI算力需求激增,先进封装产业加速成长.pdf
- 9 半导体设备行业深度分析:驱动因素、国产替代、技术突破及相关公司深度梳理.pdf
- 10 光刻机行业深度研究报告:半导体设备价值之冠,国产替代迎来奇点时刻.pdf
- 1 北方华创:平台化半导体设备龙头,受益于下游资本开支扩张&国产化率提升.pdf
- 2 2026年半导体设备行业策略报告:AI驱动新成长,自主可控大时代.pdf
- 3 半导体行业投资策略:AI算力自主可控的全景蓝图与投资机遇.pdf
- 4 半导体行业:EDA工具,贯穿芯片落地全流程,国产企业蓄势待发.pdf
- 5 半导体行业:模拟IC回归新周期,国产龙头的成长空间与路径(更新).pdf
- 6 半导体行业先进封装与测试专题报告:先进封装量价齐升,测试设备景气上行.pdf
- 7 半导体与半导体生产设备行业深度报告:新旧动能切换供给竞争转势,碳化硅衬底进击再成长.pdf
- 8 半导体行业存储设备专题报告:AI驱动存储扩容,设备环节确定性凸显.pdf
- 9 半导体行业分析手册之二:混合键合设备,AI算力时代的芯片互连革命与BESI的领航之路.pdf
- 10 天承科技深度研究报告:国产PCB专用化学品龙头,布局半导体电镀业务打开成长空间.pdf
- 全部热门
- 本年热门
- 本季热门
- 1 2026年封装测试行业投资策略(半导体中游系列研究之十三):先进封装大时代,本土厂商崭露头角
- 2 2026年第10周半导体行业周报:半导体产业链景气度结构性攀升,Agentic AI带动CPU价值重估
- 3 2026年半导体行业3月投资策略:建议关注半导体生产链及周期复苏的模拟功率板块
- 4 2026年TMT行业海外龙头TMT公司业绩启示:资本开支进一步上行,半导体表现占优趋势或延续
- 5 2026年半导体行业2月份月报:半导体行业涨价蔓延未止,关注AI驱动下细分赛道结构性机会
- 6 2026年第9周半导体行业周报:台积电营收创历史新高,T_glass供不应求
- 7 2026年半导体行业深度:海外模拟IC龙头业绩验证拐点,结构性复苏主线清晰
- 8 2026年度半导体设备行业策略:看好存储与先进逻辑扩产,设备商国产化迎新机遇
- 9 2026年半导体零部件行业深度报告:高景气上行+国产替代共振,看好零部件大级别行情
- 10 2026年半导体行业业绩跟踪专题报告:行业整体景气上行,存储、设备、晶圆代工需求火热
- 1 2026年封装测试行业投资策略(半导体中游系列研究之十三):先进封装大时代,本土厂商崭露头角
- 2 2026年第10周半导体行业周报:半导体产业链景气度结构性攀升,Agentic AI带动CPU价值重估
- 3 2026年半导体行业3月投资策略:建议关注半导体生产链及周期复苏的模拟功率板块
- 4 2026年TMT行业海外龙头TMT公司业绩启示:资本开支进一步上行,半导体表现占优趋势或延续
- 5 2026年半导体行业2月份月报:半导体行业涨价蔓延未止,关注AI驱动下细分赛道结构性机会
- 6 2026年第9周半导体行业周报:台积电营收创历史新高,T_glass供不应求
- 7 2026年半导体行业深度:海外模拟IC龙头业绩验证拐点,结构性复苏主线清晰
- 8 2026年度半导体设备行业策略:看好存储与先进逻辑扩产,设备商国产化迎新机遇
- 9 2026年半导体零部件行业深度报告:高景气上行+国产替代共振,看好零部件大级别行情
- 10 2026年半导体行业业绩跟踪专题报告:行业整体景气上行,存储、设备、晶圆代工需求火热
- 1 2026年封装测试行业投资策略(半导体中游系列研究之十三):先进封装大时代,本土厂商崭露头角
- 2 2026年第10周半导体行业周报:半导体产业链景气度结构性攀升,Agentic AI带动CPU价值重估
- 3 2026年半导体行业3月投资策略:建议关注半导体生产链及周期复苏的模拟功率板块
- 4 2026年TMT行业海外龙头TMT公司业绩启示:资本开支进一步上行,半导体表现占优趋势或延续
- 5 2026年半导体行业2月份月报:半导体行业涨价蔓延未止,关注AI驱动下细分赛道结构性机会
- 6 2026年第9周半导体行业周报:台积电营收创历史新高,T_glass供不应求
- 7 2026年半导体行业深度:海外模拟IC龙头业绩验证拐点,结构性复苏主线清晰
- 8 2026年度半导体设备行业策略:看好存储与先进逻辑扩产,设备商国产化迎新机遇
- 9 2026年半导体零部件行业深度报告:高景气上行+国产替代共振,看好零部件大级别行情
- 10 2026年半导体行业业绩跟踪专题报告:行业整体景气上行,存储、设备、晶圆代工需求火热
- 最新文档
- 最新精读
- 1 2026年中国医药行业:全球减重药物市场,千亿蓝海与创新迭代
- 2 2026年银行自营投资手册(三):流动性监管指标对银行投资行为的影响(上)
- 3 2026年香港房地产行业跟踪报告:如何看待本轮香港楼市复苏的本质?
- 4 2026年投资银行业与经纪业行业:复盘投融资平衡周期,如何看待本轮“慢牛”的持续性?
- 5 2026年电子设备、仪器和元件行业“智存新纪元”系列之一:CXL,互联筑池化,破局内存墙
- 6 2026年银行业上市银行Q1及全年业绩展望:业绩弹性释放,关注负债成本优化和中收潜力
- 7 2026年区域经济系列专题研究报告:“都”与“城”相融、疏解与协同并举——现代化首都都市圈空间协同规划详解
- 8 2026年历史6轮油价上行周期对当下交易的启示
- 9 2026年国防军工行业:商业航天革命先驱Starlink深度解析
- 10 2026年创新引领,AI赋能:把握科技产业升级下的投资机会
