GPU应用场景、格局及核心三要素有哪些?

GPU应用场景、格局及核心三要素有哪些?

最佳答案 匿名用户编辑于2023/10/18 10:49

图显为GPU第一大应用,市场空间广阔。

1、应用场景:从图显到超算,新应用场景需求爆发

GPU 适用海量数据并行计算。GPU 是图形处理器的英文简称,是用于 进行图像运算工作的微处理器,可以对图形数据、显示、可视计算等作 出优化加速,用于通用计算的 GPU 也被称作 GPGPU。图形的结构像素 点之间是独立的,图像以矩阵形式存储数据。GPU 的主要任务是处理成 千上万个三角形的顶点/内部像素的着色。所以 GPU 设计便是基于大吞 吐量和并行计算,80%的晶体管用作计算单元(CPU 只有 20%左右), 具有很强的浮点运算能力和超长的流水线处理。并行计算是将特定计算 分解成可以同时进行的较小独立乘法和加法运算。然后重新组合或同步 计算结果,形成原来较大计算的结果。而 CPU 作为强大的执行引擎, 旨在将其数量相对较少的内核集中用于单个任务处理,并快速将其完成

图形渲染是 GPU 最大的应用领域。GPU传统的功能是在个人电脑、工 作站、游戏设备以及服务器等上执行绘图运算工作。GPU图形渲染的流 水线可分为两大部分,一是把 3D 坐标转换为 2D 坐标,二是把 2D 坐 标转变为有颜色的像素。两大部分可再拆分为 6 个阶段性步骤。第一, 对顶点数据进行处理;第二是将定点进行基本形状的装配;第三是把一 系列定点的基本形状构建出几何形状;第四步为光栅化,将图元映射在 屏幕对应像素;第五步对各个像素的最终颜色进行计算;第六步是对像素的测试和混合,查看物体之间的混合程度。

GPU 应用触角延伸至 AI、深度学习等众多场景。尽管 GPU 当下主要的 使用场景仍然是图形处理视觉效果越来越真实的顶级游戏。但同时, GPU 也已经演化为用途更普遍的并行处理器,能够处理越来越多的应用程序。GPU 使用场景已扩展至云端的 AI 训练、AI 推理、图片渲染、视 频转码、云端图形工作站、云游戏等;移动消费端的个人 PC/台式机/手 机上的图形处理、移动手游、移动办公等;自动驾驶场景下的行车路径 规划、车速规划、行车安全控制等。

人工智能 AI 是 GPU 应用层的一个重要分支。人工智能通过模拟和延展 人类及自然智能的功能,拓展机器的能力边界,使其能部分或全面地实 现类人的感知(如视觉、语音)、认知功能(如自然语言理解),或获得 建模和解决问题的能力(如机器学习等方法)。从技术角度看,AI通常可分为“训练”和“推理”两个阶段。训练阶段基于充裕的数据来调整 和优化人工智能模型的参数,使模型的准确度达到预期。为了获取更准 确的 AI 模型,训练阶段需要处理巨大的数据集并做反复的迭代计算,耗 费巨大运算量。推理阶段利用训练结束的 AI 智能模型,进行推理或预测 待处理输入数据对应的输出(如给定一张图片,识别其中的物体)。

人工智能技术对底层芯片算力需求飞速增长。2012 年时,深度学习模型 AlexNet 识别一张 ImageNet 图片需要 7.6X108次基本云运算,训练该模 型需要 3.17X1017次基本运算。1993 出品的英特尔奔腾 P5 芯片来执行 推理任务需要至少 10 分钟,而训练任务需要近百年才能完成。如今手 机上只需要数百微秒就能执行完成这样的图像识别,云计算数据中心只 需要 20 分钟即可完成训练任务。与此同时,AI 对算力的需求已经大幅 度超过了摩尔定律的速度。AI 运算具有的大运量、高并发度、访存频繁 的特点对芯片的微架构、指令集、制造工艺以及配套系统软件都提出了 巨大的挑战。

ChatGPT、AIGC 为 AI 领域最具创新性应用场景。炙手可热的 ChatGPT 目前只是语言生成模型。而 AIGC(AI-Generated Content)包含文本生 成,音频生成、图像生成、视频生成及图像、视频、文本间的跨模态生 成等。为实现对话文本生成,OpenAI 需要约 3617 台 HGX A100 服务 器(28936 个 GPU)来为 ChatGPT 服务。随着 ChatGPT 开放第三方 插件,ChatGPT 具备了增强知识库的能力,或将成为一个全知全能的 AI 平台。本次开放的第三方插件分为三大类,1)网页浏览器:在循环 中添加必应搜索;2)代码解释器:在一个沙盒和防火墙的执行环境中添 加一个实时的 Python 解释器;3)检索:对个人和组织文件进行语义搜 索。

2、赛道格局:图显、超算引领GPU发展

全球 GPU 增长稳健,新应用场景前景乐观。根据 T4 的数据显示,2022 年预计全球 GPU 市场规模为 250 亿美元,至 2025 年将进一步提升至 350 亿美元。Verified Market Research 的数据则更为乐观,预计至 2028 年全球 GPU 市场将扩大至 2465.1 亿美元,2020 年至 2028 年的复合增 长率有望达到 32.82%。全球范围内,GPU 由三大巨头英特尔、英伟达 和 AMD 占据市场主导地位。从竞争格局来看,英特尔在集成显卡领域 占主导,英伟达则深耕独立显卡以及数据中心超算加速卡业务。

图形处理和数据中心为 Top2 应用场景。通过观察英伟达的营业收入可 以发现 GPU 传统领域的游戏显卡收入稳中有增,但数据中心 GPU 收入 快速扩张,使得游戏显卡收入占比总体营收比例逐步收缩,从 2017 年 的 59%降低至 2022 年的 46%。随着全球组范围内的人工智能需求爆炸 式增长,数据中心计算需求激增。英伟达数据中心 GPU 收入占比从 2017 年 12%翻倍提升至 2022 年的 39%。预计在未来几年,随着人工智能、 高性能计算的需求高涨,英伟达数据中心业务将进一步提供增量或超过游戏显卡成为第一大 GPU 收入板块。近期炙手可热的 ChatGPT 是人工 智能训练和推理的最好例证,且此趋势将会进一步引爆对数据中心 GPU 算力的需求。

集成显卡英特尔领先,独显英伟达一家独大。根据 JPR 的统计,22 年 第三季度英特尔的 PC 集成显卡市占率高达 72%。从市场格局来看,英 特尔在集成显卡和桌面端霸主地位稳固,英伟达保持稳定,AMD 份额略 有收缩。而独立显卡英伟达多年深耕独立显卡市场,在软硬件积累均拥 有巨大优势。根据 JPR 统计,22 年第三季度英伟达在独立显卡市场份 额提升至 88%。从渗透率来看,当下独显渗透率仅为 20%左右,JPR 预计未来 5 年独显渗透率将提高至 26%。英特尔在阔别独立显卡市场 20 余年后,再次进入独显市场竞争。后发者进入独显市场难度取决于游 戏开发商针对新 GPU 的优化适配。游戏开发周期通常较为紧张,开发 商缺乏足够动力去适配优化,而老款游戏的图形引擎修改则更为困难。

英伟达一枝独秀,引领超算芯片竞争格局。近期引爆全球的 AI 产品ChatGPT 依赖于上万个英伟达 GPU 芯片所组成的高性能网络集群,把 45TB 的语料库平均分配给每个芯片,通过 PyTorch、TensorFlow 等软 件工具实现分布式并行计算,最后逐级计算总成。根据 Liftr 数据,英伟 达的数据中心 GPU 在全球领先的六大云计算平台中均有超过 70%的份 额,在甲骨文和腾讯更是接近 100%。总的格局来看,在全球顶级云厂 商加速计算中,英伟达份额为 82%,大幅领先其他竞争对手。

3、行业壁垒:硬件快速迭代,软件构建生态

GPU 发展的核心三要素: IP 核、软件生态以及行业合作绑定。从硬件 层设计来看,IP 核是已验证并可重复使用的集成电路设计模块。IP 的积 累对于硬件的高频迭代至关重要。英伟达每 2 年升级一次架构。对于 GPU 的后起追赶者而言,全流程自研极易痛失产品商业运作的窗口期。 所以外采部分成熟 IP 是行业惯例做法。根据 IBS 的数据,7nm 制程下 单颗芯片中可集成的 IP 核数量平均为 178 个,到5nm增长到218个。 由此可见,IP 核在积累层面与多核协作上的挑战性。即使流片成功,GPU 在商业上的成功还需要硬件、配套编程接口和软件生态的多重支持。所 以英伟达的龙头地位其CUDA平台生态起到了至关重要的作用。

要素一:IP 核的质量决定了 GPU 的性能底色。 IP 大致分为三大类, 一是模拟 IP,包括 PCIe、Displayport 和 HDMI 等等;二是 Memory; 三是数字 IP,包括基于 Arm 或 RISC-V 的微控制器 IP、编解码芯片 IP 以及最核心的 GPU IP 等。从现状来看,难度更大的图显领域差距约在 10 年左右,超算领域差距在 3 年左右。IP 核的自研比例越高,利于提 升芯片的成功率和产品差异化。IP 核对于初创公司的考验在于时间和成 本。IP 自研通常需要 3-4 年以及至少 200 位工程师,而外采可节约 1-1.5 年的开发周期。成本方面,一位研发工程师的成本在 50 万元每年,200 人的研发团队一年的人力成本为 1 亿元。

要素二:软件生态构筑全球 GPU 龙头护城河。软件生态构筑的两大要 素,其一为提供开发者友好的生态社区;其二为生态的跨行业应用与通 用性。英伟达 CUDA(Compute Unified Device Architecture,统一计算 架构)使得开发者可利用英伟达的 GPU 进行图像处理之外的复杂计算 任务,且以类 C 语言为基础的开发环境使得上手极具便利性。摩尔定律 使得晶体管数量不断增长,CUDA 作为一种可扩展的编程模型,使得代码可以在任意数量核心的 GPU 上运行而无需重新编码。CUDA 在推出 之际,曾面向美国大学和科研机构免费试用,而后面向工商企业。因 CUDA 只能运用于英伟达 GPU,久而久之软硬结合形成了强用户粘性与 庞大的用户人群。

优秀生态在于跨行业性的应用能力。CUDA 之所以成功一方面在于 CUDA 生态统一的开发套件(CUDA Toolkit, NVIDIA GPU Computing SDK)以 及极其丰富的库(cuFFT, cuBLAS, cuSPARSE, cuRAND, NPP, Thrust 等)。 其中常用的 cuDNN(CUDA Deep Neural Network library)用于深度神 经网络加速。在医学科研领域,BIDMC 和哈佛医学院借助 “cuDNN”检 测乳腺癌的精确率高达 92%。在视频处理领域,Elemental Technologies 等公司利用 CUDA 加速视频处理的全流程包括压缩、色彩校正、帧率转换、 降噪等等。CUDA 在各个领域的广泛应用侧面助力了其 GPU 的强势崛起。

要素三:与千行百业深度适配,形成反馈合作圈。英伟达和 AMD 均积 极设立合作网络,将产品互相授权并深度适配。○1 后发者进入 GPU 显 卡市场难度取决于游戏开发商针对新 GPU 的优化适配。游戏开发周期 通常较为紧张,开发商缺乏足够动力去适配优化芯片新进玩家,而为老 款游戏的图形引擎修改适配则更为困难。游戏软件厂商与 GPU 厂商在 无数轮的硬软件适配反馈中构筑了生态合作圈。○2 英伟达 GeForce NOW 云游戏服务将嵌入比亚迪、现代、捷尼赛思等整车厂车内屏幕提 供停车时的游戏服务。与此同时,新能源汽车制造领域前 30 家制造商 中的 20 家在 NVIDIA DRIVE 平台上开发自动驾驶等软件。在互相适配 的过程中,逐步形成了你中有我,我中有你的合作黏性。

参考报告

景嘉微(300474)研究报告:ChatGPT大发展背景下,景嘉微价值几何.pdf

景嘉微(300474)研究报告:ChatGPT大发展背景下,景嘉微价值几何。报告核心观点:ChatGPT问世迅速引爆全球人工智能发展浪潮。英伟达的H100NVLINKGPU在ChatGPT、AIGC领域获得了极大关注。在大算力芯片赋能AI的逻辑演绎下,景嘉微作为A股龙头GPU公司的价值不容忽视。本文比较分析了图显与超算的产品开发路径差异,开创性地提出景嘉微的“顺位”优势,从而打开了公司在AI领域发展的路径展望。GPU梦之队,领军国产图显领域。公司产品覆盖图形显控、小型专用化雷达领域的核心模块及系统级产品。核心管理层及技术班底在军工电子领域内具备十年以上的研发经验。公司历...

查看详情
相关报告
我来回答