如何理解GPU的核心？

提问时间：2024/03/11
浏览次数：289
提问者：匿名用户
举报
分享微信 QQ 微博

如何理解GPU的核心？

标签

共有1个回答
关注问题
我来回答

最佳答案由匿名用户编辑于2024/03/11 09:27

性能+生态。

1、GPU定位：计算机图形处理以及并行计算的核心

GPU全称是Graphic Processing Unit，即图形处理单元，是计算机显卡的核心。 GPU是计算机的图形处理以及并行计算内核。它的主要功能可以分为：1）图形图像渲染计算 GPU；2）作为运算协作处理器 GPGPU。 GPU的功能主要集中于执行高度线程化、相对简单的并行任务处理。 GPU vs GPGPU：GPGPU全称通用GPU，运用CUDA及对应开放标准的OpenCL实现通用计算功能运算，能够辅助CPU进行非图形相关程序执行。由GPU性能拓展至计算密集领域，将GPU强大的并行运算能力运用于通用计算领域。多侧重科学计算、AI领域、大数据处理、通用计算、物理计算、加密货币生成等领域。

依据接入方式不同分为：独立GPU和集成GPU。1）独立GPU：大部分封装于独立显卡电路板上，使用PCIE接口和特定显存，不受空间和供电限制，性能相对更好、渲染画质更佳。主要厂商包括AMD（Radeon系列）、NVIDIA（Geforce系列）。2）集成GPU：通常未拥有独立显存，集成于CPU内部，与CPU共同使用 Die和系统内存，节省空间占位和制作难度，价格较低、兼容性更佳且供电量少。主要厂商包括Intel（HD系列）、AMD（APU系列）。

依据应用端不同分为：PC GPU、服务器GPU和移动GPU。 1）PC端：集成GPU主要运用于提高轻办公效率，对性能要求较低；独立GPU主要运用于图形设计、提高图片制作清晰度以及3A游戏绘图渲染能力，对性能要求较高。2）服务器端：主要进行专业可视化处理、AI训练、AI推断的深度学习、提高计算运行能力以及视频编解码等功能，以独立GPU为主。3）移动端：提高游戏体验、提升游戏处理性能，应用场景包括AR、桌面、云计算、数据中心等。受移动端功耗和体积限制，一般为集成GPU。

2、GPU性能影响因素：微架构、制程、核心频率

微架构：又称为微处理器体系结构，是硬件电路结构，用以实现指令执行。制程：指GPU集成电路的密集度。在晶体管硬件数量一定的情况下，更精细的制程能够减少功耗和发热。现阶段GPU主流最先进工艺制程为5nm。核心频率：代表GPU显示核心处理图像频率大小/工作频率，能够反映显示核心的性能。

图形处理器单元数量：指GPU内部图形处理单元，涵盖光栅单元（ROP）和纹理单元（TMU）等数量。光栅单元（ROP）：进行光线、反射计算，负责游戏中高分辨率、高画质的效果生成。纹理单元（TMU）：能够对二进制的图形进行一系列翻转、缩放变化，再将其纹理传输至3D平面模型中。CUDA核数：作为GPU内部的流处理器，是主要的计算单元，CUDA核数越多，GPU性能等级越高。Tensor核数：能够进行张量核加速GEMM计算以及加速卷积和递归神经网络运行，Tensor核数越多，在人工智能、深度学习领域的性能越强。

显存容量：显存作为GPU核心部件，用以临时存储未处理数据。显存容量的大小对于GPU存储临时数据的多少起决定性作用，在GPU核心性能能够提供充足支撑前提下，越大的显存容量能够减少数据读取次数，减少延迟出现。显存位宽：是GPU在单位时钟周期内传送数据的最大位数，位数越大GPU的吞吐量越大。显存频率：显存数据传输的速度即显存工作频率，通常以MHz为显存频率计数单位。显存带宽：显存带宽=显存频率X显存位宽/8，为显存与显卡芯片间数据传输量。

PolyMorph Engine（黄色部分，多形体引擎），是全球首款实现了可扩展几何学流水线的重要元件。主要负责顶点拾取（Vertex Fetch）、细分曲面（Tessellation）、视口转换（Viewport Transform）、属性设定（Attribute Setup）、流输出（Stream Output）五个方面的处理工作。在图形渲染流水线中： Vertex Fetch通过三角形索引取出三角形数据。 Viewport Transform负责模块处理已完成vertex-shader的所有指令，进行裁剪三角形，准备栅格化。 Attribute Setup确保经过插值后的vertex-shader数据在pixelshader中的可读性。

微架构未来方向：更多、更专、更智能

更专：图形渲染能力更精细，通用计算能力更高效。图形渲染领域：采用光线追踪技术，相较传统光栅化渲染方式，光线追踪采用基于物理渲染方式，使得所实现的效果更加接近显示，具有更加逼真的图显能力。通用计算领域：目前国际各大厂商均推出GPGPU计算解决方案，大规模扩展计算能力的高性能计算。例如：1）ATI Stream：为程序员提供SDK开发工具包以协同进行GPU计算。2）NVIDIA CUDA：推出统一计算架构，由管线分工式设计转变为统一化的处理器设计，学习成本较低，能够通过C、C++编程语言进行程序编写。

更智能：GPU AI运算能力上升。 GPU在AI领域得到广泛的应用，包括自动驾驶、医疗影像分析、人工智能计算能力、金融模型建立等领域，如第三代的张量单元相较于上代在吞吐量上提升了1倍。 GPU自身结构特点决定其在AI的发展方向：1）多线程，计算单元数量多，并行计算方式能够同时计算大量数据。2）拥有更直接、迅速访问缓存的能力。3）拥有更高精度的浮点算力，能够更佳适配于推理训练、深度学习。

应用场景：数据中心、游戏业务、图形显示、OEM、加密货币

GPU技术不断发展，GPU的应用场景也随之不断拓宽，不仅包含图形处理，还在AI、边缘计算等新领域发挥重要作用。图形显示是GPU最基本的功能。GPU的诞生原因就是分担CPU计算量，凭借其处理并行计算的优势承担图像信息的运算工作。在游戏画面显示、图像运算等领域广泛应用。 GPGPU被视为AI时代的算力核心。应用于人工智能场景的服务器通常搭载GPU、FPGA、ASIC等加速芯片。加速芯片和中央处理器的性能结合支撑高吞吐量的运算需求，为图形视觉处理、语音交互等场景提供算力支持，已经成为人工智能发展的重要支撑力量。GPU由于在架构设计上擅长进行大量数据运算，被广泛应用于人工智能计算中。在人工智能的应用和研究、智能安防、边缘计算、无人驾驶等领域发挥作用。

应用场景：人工智能芯片GPGPU、FPGA、ASIC的选择

GPGPU：为通用图形处理器，擅长图形处理，“粗粒度并行”技术。特点为拥有高灵活性、运用并行结构、在图形和复杂算法上效率较高；缺点为价格贵且功耗高。 FPGA：为现场可编程逻辑阵列，擅长于算法更新频繁的专用领域。特点为灵活性适中、可以同时进行数据并行和任务并行计算、制作成本低于ASIC、定制化、功耗低。在国内多用于芯片验证。 ASIC：为专用集成电路，应用于市场需求量大的专用领域。指应特定用户要求和特定电子系统的需要而设计、制造的集成电路，特点是灵活性较低、高性能、成本高、可靠性高。缺点是算法相对固定、开发时间成本高。

3、GPU指令集：GPU进行图形渲染和通用计算的指令集合

GPU指令集本质是硬件执行功能的机器码。指令是计算机运行的最基本工作单位，是GPU功能实现的重要基础，通常包括指令格式、寻址方式和数据形式等。 GPU指令集是GPU中用以计算和控制系统的指令集合，指令集的先进与否直接关系到GPU性能的高低。操作系统通过指令集对硬件进行管理和资源分配，并规范程序按认可方式编译运行。GPU指令集分类包括PTX、CUDA SASS指令集等。

指令集相关性质：指令集本身在特定架构改变下会表现为指令性能变化，而本身的编码和功能并没有发生改变。兼容性：经过CUDA C、C++编译完成后，会同时生成与SM单元对应的PTX和SASS代码。指令执行吞吐是评价GPGPU执行的有效指标，GPU指令吞吐一般用每单位SM在一周期内执行的指令数量计算  SASS指令集分类：主要包括Predicate操作指令、Float指令、Integer指令、格式转化/数据移动/内存操作/跳转分支指令和Uniform DataPath指令。

MOV: 能够完成基本传送指令。MOV指令是编程中最基本的指令，能够将数据从起始源地址传送到目标地址。功能范围覆盖立即数传送、寄存器传送、储存器传送、段寄存器传送。  MUFU: 作为SASS指令集中计算超越函数的重要工具。超越函数指的是相对有限次加减乘除等组合而言，硬件上无法用多项式表示的函数需要通过该指令进行近似计算，若对精度有进一步要求，还需要调用数学函数库中其他软件。完善的GPU生态体系能够兼容不同的软件、硬件平台，使得GPU性能得到最佳释放。GPU生态的由三大部分基本构成：1）上层图形引擎、算法库。2）中层标准API接口适配各类驱动、编译器。3）底层硬件/指令集架构。

GPU生态体系：构筑行业壁垒的基石

IP研发难度高： IP研发难度大、需要多年沉淀才能产出稳定性较佳的产品。目前GPU领域中，想要短期内产出需要依赖外部IP授权。市场上大多公司使用Imagination提供的IP，即在购买商用GPU IP之后自行修改迭代。以苹果芯片IP专利为例，苹果在A10之前处理器芯片都是采用 lmagination的IP。软件门槛高：计算机芯片除了硬件之外，还要求有与之配套的软件体系，而GPU软件体系复杂，涵盖各类图形API、计算接口、基础库、应用对接适配等等。NVIDIA在各类软件驱动测试上已投入大量时间，形成较强的生态效应。

规模化商用难：要实现规模化商用，就需要厂商实现软硬件技术生态完整部署。由于行业在生态建设上先发优势明显，NVIDIA通过早期与客户企业的平台适配、软件开源合作，较好的用户体验加强了客户粘性，使新的竞争企业难以进行转移。市场认可度：市场认可度一方面需要生产商具备生产高品质产品的实力，另一方面需要用户经过一定时间使用形成反馈累积为企业信誉。在GPU市场内，长期以来，AMD和NVIDIA两大产商占据了主要市场份额，也相应形成了较高的市场认可度，客户在选择产品时普遍优先考虑这两大产商的产品；其他厂商的产品，由于未使用过且市场认可度不高，存在较大的不确定性，客户选购意愿较低。

参考报告

GPU行业深度研究.pdf

GPU行业深度研究。核心结论：GPU的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内GPU厂商纷纷大力投入研发快速迭代架构，推动产业开放构建自主生态，加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧，AI&数据中心、智能汽车、游戏等GPU需求有望高增，国产GPU迎来发展黄金期，我们看好国产GPU公司的发展与投资机遇。理解GPU的核心：性能先进性+生态计算壁垒GPU物理性能取决于微架构、制程、流处理器数量、核心频率等，其中微架构是核心点。我们认为微架构的快速创新迭代是GPU性能领先的前提，其图形渲染单元和通用计算单元设计向着“更多、更专、更智能...

查看详情

如何理解GPU的核心？

1、GPU定位：计算机图形处理以及并行计算的核心

2、GPU性能影响因素：微架构、制程、核心频率

3、GPU指令集：GPU进行图形渲染和通用计算的指令集合

GPU行业深度研究.pdf

GPU概念、架构、发展趋势、出货量及生态体系介绍

哪些应用场景对GPU的发展起到推动作用？

英伟达GPU产品线及护城河分析

GPU分类及供需格局分析

GPU的竞争壁垒体现在哪？

如何理解GPU的核心？

GPU应用场景、格局及核心三要素有哪些？

国内GPU企业未来成长前景如何？

GPU的源头及架构分析

GPU的评价指标包含哪些？

商业火箭目前发展到什么阶段了？

康耐特光学有哪些业务布局？

AI眼镜行业规模、需求、成长性、格局及竞争要素在哪？

康耐特光学发展历程、股权结构及收入分析

中宠股份经营看点在哪？

中宠股份发展历程、股权结构及营收分析

赛微电子发展历程、股权结构、主营业务、研发及财务分析

梦百合内外销业务进展如何？

沃巴查芒

每日新报

StartYourFinance

999感冒灵

王中王