如何理解GPU的核心?

如何理解GPU的核心?

最佳答案 匿名用户编辑于2024/03/11 09:27

性能+生态。

1、GPU定位:计算机图形处理以及并行计算的核心

GPU全称是Graphic Processing Unit,即图形处理单元,是计算机显卡的核心。 GPU是计算机的图形处理以及并行计算内核。它的主要功能可以分为:1)图形图像渲染计算 GPU;2)作为运算协作处理器 GPGPU。 GPU的功能主要集中于执行高度线程化、相对简单的并行任务处理。 GPU vs GPGPU:GPGPU全称通用GPU,运用CUDA及对应开放标准的OpenCL实现通用计算功能运算,能够辅助CPU进行非图形相关程序执行。 由GPU性能拓展至计算密集领域,将GPU强大的并行运算能力运用于通用计算领域。多侧重科学计算、AI领域、大数据处理、通用计算、 物理计算、加密货币生成等领域。

依据接入方式不同分为:独立GPU和集成GPU。1)独立GPU:大部分封装于独立显卡电路板上,使用PCIE接口和特定显存,不受空间和供电限制,性能相对更好、渲染画质更佳。主 要厂商包括AMD(Radeon系列)、NVIDIA(Geforce系列)。2)集成GPU:通常未拥有独立显存,集成于CPU内部,与CPU共同使用 Die和系统内存,节省空间占位和制作难度,价格较低、兼容性更佳且供电量少。主要厂商包括Intel(HD系列)、AMD(APU系列)。

依据应用端不同分为:PC GPU、服务器GPU和移动GPU。 1)PC端:集成GPU主要运用于提高轻办公效率,对性能要求较低;独立GPU主要运用于图形设计、提高图片制作清晰度以及3A游戏绘 图渲染能力,对性能要求较高。2)服务器端:主要进行专业可视化处理、AI训练、AI推断的深度学习、提高计算运行能力以及视频编解 码等功能,以独立GPU为主。3)移动端:提高游戏体验、提升游戏处理性能,应用场景包括AR、桌面、云计算、数据中心等。受移动 端功耗和体积限制,一般为集成GPU。

2、GPU性能影响因素:微架构、制程、核心频率

微架构:又称为微处理器体系结构,是硬件电路结构,用以实现指令执行。 制程:指GPU集成电路的密集度。在晶体管硬件数量一定的情况下,更精细的制程能够减少功耗和发热。现阶段GPU主 流最先进工艺制程为5nm。 核心频率:代表GPU显示核心处理图像频率大小/工作频率,能够反映显示核心的性能。

图形处理器单元数量:指GPU内部图形处理单元,涵盖光栅单元(ROP)和纹理单元(TMU)等数量。 光栅单元(ROP):进行光线、反射计算,负责游戏中高分辨率、高画质的效果生成。 纹理单元(TMU):能够对二进制的图形进行一系列翻转、缩放变化,再将其纹理传输至3D平面模型中。CUDA核数:作为GPU内部的流处理器,是主要的计算单元,CUDA核数越多,GPU性能等级越高。Tensor核数:能够进行张量核加速GEMM计算以及加速卷积和递归神经网络运行,Tensor核数越多,在人工智能、深度 学习领域的性能越强。

显存容量:显存作为GPU核心部件,用以临时存储未处理数据。 显存容量的大小对于GPU存储临时数据的多少起决定性作用,在GPU核心性能能够提供充足支撑前提下,越大的显存容量能够减少数据 读取次数,减少延迟出现。 显存位宽:是GPU在单位时钟周期内传送数据的最大位数,位数越大GPU的吞吐量越大。 显存频率:显存数据传输的速度即显存工作频率,通常以MHz为显存频率计数单位。 显存带宽:显存带宽=显存频率X显存位宽/8,为显存与显卡芯片间数据传输量。

PolyMorph Engine(黄色部分,多形体引擎),是全球首款实现了可扩展几何学流水线的重要元件。主要负 责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、 视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)五个方面的处理工作。 在图形渲染流水线中: Vertex Fetch通过三角形索引取出三角形数据。 Viewport Transform负责模块处理已完成vertex-shader的所 有指令,进行裁剪三角形,准备栅格化。 Attribute Setup确保经过插值后的vertex-shader数据在pixelshader中的可读性。

微架构未来方向:更多、更专、更智能

更专:图形渲染能力更精细,通用计算能力更高效。 图形渲染领域:采用光线追踪技术,相较传统光栅化渲染方式,光线追踪采用基于物理渲染方式,使得所实现的效果更加接近显示,具 有更加逼真的图显能力。 通用计算领域:目前国际各大厂商均推出GPGPU计算解决方案,大规模扩展计算能力的高性能计算。例如:1)ATI Stream:为程序员 提供SDK开发工具包以协同进行GPU计算。2)NVIDIA CUDA:推出统一计算架构,由管线分工式设计转变为统一化的处理器设计,学 习成本较低,能够通过C、C++编程语言进行程序编写。

更智能:GPU AI运算能力上升。 GPU在AI领域得到广泛的应用,包括自动驾驶、医疗影像分析、人工智能计算能力、金融模型建立等领域,如第三代的张量单元相较于 上代在吞吐量上提升了1倍。 GPU自身结构特点决定其在AI的发展方向:1)多线程,计算单元数量多,并行计算方式能够同时计算大量数据。2)拥有更直接、迅速 访问缓存的能力。3)拥有更高精度的浮点算力,能够更佳适配于推理训练、深度学习。

应用场景:数据中心、游戏业务、图形显示、OEM、加密货币

GPU技术不断发展,GPU的应用场景也随之不断拓宽,不仅包含图形处理,还在AI、边缘计算等新领域发挥重要作用。 图形显示是GPU最基本的功能。GPU的诞生原因就是分担CPU计算量,凭借其处理并行计算的优势承担图像信息的运算工作。在游戏画面显示、图像运算等领域广泛应 用。 GPGPU被视为AI时代的算力核心。应用于人工智能场景的服务器通常搭载GPU、FPGA、ASIC等加速芯片。加速芯片和中央处理器的性能结合支撑高吞吐量的运算需求, 为图形视觉处理、语音交互等场景提供算力支持,已经成为人工智能发展的重要支撑力量。GPU由于在架构设计上擅长进行大量数据运 算,被广泛应用于人工智能计算中。在人工智能的应用和研究、智能安防、边缘计算、无人驾驶等领域发挥作用。

应用场景:人工智能芯片GPGPU、FPGA、ASIC的选择

GPGPU:为通用图形处理器,擅长图形处理,“粗粒度并行”技术。特点为拥有高灵活性、运用并行结构、在图形和复杂算法上效率较 高;缺点为价格贵且功耗高。 FPGA:为现场可编程逻辑阵列,擅长于算法更新频繁的专用领域。特点为灵活性适中、可以同时进行数据并行和任务并行计算、制作成 本低于ASIC、定制化、功耗低。在国内多用于芯片验证。 ASIC:为专用集成电路,应用于市场需求量大的专用领域。指应特定用户要求和特定电子系统的需要而设计、制造的集成电路,特点是 灵活性较低、高性能、成本高、可靠性高。缺点是算法相对固定、开发时间成本高。

3、GPU指令集:GPU进行图形渲染和通用计算的指令集合

GPU指令集本质是硬件执行功能的机器码。指令是计算机运行的最基本工作单位,是GPU功能实现的重要基础,通常包括指令格式、寻址方式和数据形式等。 GPU指令集是GPU中用以计算和控制系统的指令集合,指令集的先进与否直接关系到GPU性能的高低。操作系统通过指令集对硬件进行 管理和资源分配,并规范程序按认可方式编译运行。GPU指令集分类包括PTX、CUDA SASS指令集等。

指令集相关性质: 指令集本身在特定架构改变下会表现为指令性能变化,而本身的编码和功能并没有发生改变。 兼容性:经过CUDA C、C++编译完成后,会同时生成与SM单元对应的PTX和SASS代码。 指令执行吞吐是评价GPGPU执行的有效指标,GPU指令吞吐一般用每单位SM在一周期内执行的指令数量计算  SASS指令集分类:主要包括Predicate操作指令、Float指令、Integer指令、格式转化/数据移动/内存操作/跳转分支指令和Uniform DataPath指令。

MOV: 能够完成基本传送指令。MOV指令是编程中最基本的指令,能够将数据从起始源地址传送到目标地址。功能范围覆盖立即数传送、寄存器传送、储存器传送、段 寄存器传送。  MUFU: 作为SASS指令集中计算超越函数的重要工具。 超越函数指的是相对有限次加减乘除等组合而言,硬件上无法用多项式表示的函数需要通过该指令进行近似计算,若对精度有进一步要 求,还需要调用数学函数库中其他软件。完善的GPU生态体系能够兼容不同的软件、硬件平台,使得GPU性能得到最佳释放。GPU生态的由三大部分基本构成:1)上层图形引擎、算法库。2)中层标准API接口适配各类驱动、编译器。3)底层硬件/指令集架构。

GPU生态体系:构筑行业壁垒的基石

IP研发难度高: IP研发难度大、需要多年沉淀才能产出稳定性较佳的产品。目前GPU领域中,想要短期内产出需要依赖外部IP授权。市场上大多公司使 用Imagination提供的IP,即在购买商用GPU IP之后自行修改迭代。以苹果芯片IP专利为例,苹果在A10之前处理器芯片都是采用 lmagination的IP。 软件门槛高: 计算机芯片除了硬件之外,还要求有与之配套的软件体系,而GPU软件体系复杂,涵盖各类图形API、计算接口、基础库、应用对接适 配等等。NVIDIA在各类软件驱动测试上已投入大量时间,形成较强的生态效应。

规模化商用难:要实现规模化商用,就需要厂商实现软硬件技术生态完整部署。由于行业在生态建设上先发优势明显,NVIDIA通过早期与客户企业的平 台适配、软件开源合作,较好的用户体验加强了客户粘性,使新的竞争企业难以进行转移。市场认可度:市场认可度一方面需要生产商具备生产高品质产品的实力,另一方面需要用户经过一定时间使用形成反馈累积为企业信誉。在GPU市场 内,长期以来,AMD和NVIDIA两大产商占据了主要市场份额,也相应形成了较高的市场认可度,客户在选择产品时普遍优先考虑这两大 产商的产品;其他厂商的产品,由于未使用过且市场认可度不高,存在较大的不确定性,客户选购意愿较低。

参考报告

GPU行业深度研究.pdf

GPU行业深度研究。核心结论:GPU的核心竞争力在于架构等因素决定的性能先进性和计算生态壁垒。国内GPU厂商纷纷大力投入研发快速迭代架构,推动产业开放构建自主生态,加速追赶全球头部企业。国产替代需求持续释放叠加国际局势不确定性加剧,AI&数据中心、智能汽车、游戏等GPU需求有望高增,国产GPU迎来发展黄金期,我们看好国产GPU公司的发展与投资机遇。理解GPU的核心:性能先进性+生态计算壁垒GPU物理性能取决于微架构、制程、流处理器数量、核心频率等,其中微架构是核心点。我们认为微架构的快速创新迭代是GPU性能领先的前提,其图形渲染单元和通用计算单元设计向着“更多、更专、更智能...

查看详情
相关报告
我来回答