GPU深度报告三大巨头十四个国内玩家一文看懂-万博体育APP(中国)官方入口IOS/Android通用版

GPU是Graphics Processing Unit（图形处理器）的简称，它是一种专门在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上运行绘图运算工作的微处理器。图形处理器是NVIDIA公司（NVIDIA）在1999年8月发表NVIDIA GeForce 256（GeForce 256）绘图处理芯片时首先提出的概念，在此之前，电脑中处理影像输出的显示芯片，通常很少被视为是一个独立的运算单元。而对手冶天科技（ATi）亦提出视觉处理器（Visual Processing Unit）概念。图形处理器使显卡减少对中央处理器（CPU）的依赖，并分担部分原本是由中央处理器所担当的工作，尤其是在进行三维绘图运算时，功效更加明显。图形处理器所采用的核心技术有硬件坐标转换与光源、立体环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等。

图形处理器可单独与专用电路板以及附属组件组成显卡，或单独一片芯片直接内嵌入到主板上，或者内置于主板的北桥芯片中，现在也有内置于CPU上组成SoC的。个人电脑领域中，在2007年，90%以上的新型台式机和笔记本电脑拥有嵌入式绘图芯片，但是在性能上往往低于不少独立显卡。但2009年以后，AMD和英特尔都各自大力发展内置于中央处理器内的高性能集成式图形处理核心，它们的性能在2012年时已经胜于那些低端独立显卡，这使得不少低端的独立显卡逐渐失去市场需求，两大个人电脑图形处理器研发巨头中，AMD以AMD APU产品线取代旗下大部分的低端独立显示核心产品线。而在手持设备领域上，随着一些如平板电脑等设备对图形处理能力的需求越来越高，不少厂商像是高通（Qualcomm）、PowerVR、ARM、NVIDIA等，也在这个领域“大显身手”。

GPU不同于传统的CPU，如Intel i5或i7处理器，其内核数量较少，专为通用计算而设计。相反，GPU是一种特殊类型的处理器，具有数百或数千个内核，经过优化，可并行运行大量计算。虽然GPU在游戏中以3D渲染而闻名，但它们对运行分析、深度学习和机器学习算法尤其有用。GPU允许某些计算比传统CPU上运行相同的计算速度快10倍至100倍。

本期的智能内参，我们推荐方正证券的报告《GPU研究框架》，从GPU的底层技术、产业链发展情况和国产GPU的自主之路三方面全面解析GPU及其产业。如果想收藏本文的报告，可以在智东西（公众号：zhidxcom）回复关键词“nc528”获取。

GPU（graphics processing unit）图形处理器，又称显示核心、视觉处理器、显示芯片，是一种在个人电脑、工作站、游戏机和一些移动设备（如平板电脑、智能手机等）上做图像和图形相关运算工作的微处理器。GPU通常包括图形显存控制器、压缩单元、BIOS、图形和计算整列、总线接口、电源管理单元、视频管理单元、显示界面。GPU的出现使计算机减少了对CPU的依赖，并解放了部分原本CPU的工作。在3D图形处理时，GPU采用的核心技术有硬件T&L（几何转换和光照处理）、立方环境材质贴图和顶点混合、纹理压缩和凹凸映射贴图、双重纹理四像素256位渲染引擎等，而硬件T&L技术可以说是GPU的标志。

GPU的微架构（Micro Architecture）是一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要用于绘制各种图形所需要的运算。当前和像素、光影处理、3D坐标变换等相关运算由GPU硬件加速来实现。相同的指令集和图形函数集合可以在不同的微架构中执行，但实施的目的和效果可能不同。优秀的微架构对GPU性能和效能的提升发挥着至关重要的作用，GPU体系是GPU微架构和图形API的集合。

以目前最新的英伟达安培微架构为例，GPU微架构的运算部份由流处理器(Stream Processor，SP)、纹理单元（Texture mapping unit, TMU)、张量单元（Tensor Core）、光线追踪单元（RT Cores）、光栅化处理单元（ROPs）组成。这些运算单元中，张量单元，光线追踪单元由NVIDIA在伏特/图灵微架构引入。

除了上述运算单元外，GPU的微架构还包含L0/L1操作缓存、Warp调度器、分配单元（Dispatch Unit）、寄存器堆（register file）、特殊功能单元（Special function unit，SFU）、存取单元、显卡互联单元（NV Link)、PCIe总线缓存、二代高位宽显存（HBM2）等接口。

GPU的流处理器单元是NVIDIA对其统一架构GPU内通用标量着色器的命名。SP单元是全新的全能渲染单元，是继Pixel Pipelines（像素管线）和Vertex Pipelines（顶点管线）之后新一代的显卡渲染技术指标。SP单元既可以完成VS（Vertex Shader，顶点着色器）运算，也可以完成PS（Pixel Shader，像素着色器）运算，而且可以根据需要组成任意VS/PS比例，从而给开发者更广阔的发挥空间。

流处理器单元首次出现于DirectX 10时代的G80核心的Nvidia GeForce 8800GTX显卡，是显卡发展史上一次重大的革新。之后AMD/ATI的显卡也引入了这一概念，但是流处理器在横向和纵向都不可类比，大量的流处理器是GPU性能强劲的必要非充分条件。

纹理映射单元（TMU）作为GPU的部件，它能够对二进制图像旋转、缩放、扭曲，然后将其作为纹理放置到给定3D模型的任意平面，这个过程称为纹理映射。纹理映射单元不可简单跨平台横向比较，大量的纹理映射单元是GPU性能强劲的必要非充分条件。

光栅化处理单元（ROPs）主要负责游戏中的光线和反射运算，兼顾AA、高分辨率、烟雾、火焰等效果。游戏里的抗锯齿和光影效果越厉害，对ROPs的性能要求就越高，否则可能导致帧数的急剧下降。NVIDIA的ROPs单元是和流处理器进行捆绑的，二者同比例增减。在AMD GPU中，ROPs单元和流处理器单元没有直接捆绑关系。

消费GPU的实时光线年由英伟达的“图灵”GPU首次引入，光追单元（RT Cores）在此过程中发挥着决定性的作用。图灵GPU的光追单元支持边界体积层次加速，实时阴影、环境光、照明和反射，光追单元和光栅单元可以协同工作，进一步提高帧数和阴影的真实感。

光追单元在英伟达的RTX光线追踪技术、微软DXR API、英伟达Optix API和Vulkan光追API的支持下可以充分发挥性能。拥有68个光追单元的RTX2080Ti在光线处理性能上较无光追单元的GTX1080Ti强10倍。

张量单元（Tensor Core）在2017年由英伟达的“伏特”GPU中被首次引入。张量单元主要用于实时深度学习，服务于人工智能，大型矩阵运算和深度学习超级采样（DLSS），可以带来惊人的游戏和专业图像显示，同时提供基于云系统的快速人工智能。

GPU的API（Application Programming Interface）应用程序接口发挥着连接应用程序和显卡驱动的桥梁作用。不过随着系统优化的深入，API也可以直接统筹管理高级语言、显卡驱动和底层汇编语言。

3D API能够让编程人员所设计的3D软件只需调动其API内的程序，让API自动和硬件的驱动程序沟通，启动3D芯片内强大的3D图形处理功能，从而大幅地提高3D程序的设计效率。同样的，GPU厂家也可以根据API标准来设计GPU芯片，以达到在API调用硬件资源时的最优化，获得更好的性能。3D API可以实现不同厂家的硬件、软件最大范围兼容。如果没有API，那么开发人员必须对不同的硬件进行一对一的编码，这样会带来大量的软件适配问题和编码成本。

DirectX是Direct eXtension的简称，作为一种API，是由微软公司创建的多媒体编程接口。DirectX可以让以Windows为平台的游戏或多媒体程序获得更高的执行效率，加强3D图形和声音效果，并提供设计人员一个共同的硬件驱动标准，让游戏开发者不必为每一品牌的硬件来写不同的驱动程序，也降低用户安装及设置硬件的复杂度。DirectX已被广泛使用于Windows操作系统和Xbox主机的电子游戏开发。

OpenGL是Open Graphics Library的简称，是用于渲染2D、3D矢量图形的跨语言、跨平台的应用程序编程接口（API），相比DirectX更加开放。这个接口由近350个不同的函数调用组成，用来绘制从简单的二维图形到复杂的三维景象。OpenGL常用于CAD、虚拟现实、科学可视化程序和电子游戏开发。

正是由于OpenGL的开放，所以它可以被运行在Windows、MacOS、Linux、安卓、iOS等多个操作系统上，学习门槛也比DirectX更低。但是，效率低是OpenGL的主要缺点。

Metal是Apple在2014年创建的接近底层的，低开销的硬件加速3D图形和计算着色器API。Metal在iOS 8中首次亮相。Metal在一个API中结合了类似于OpenGL和OpenCL的功能。它旨在通过为iOS，iPadOS，macOS和tvOS上的应用程序提供对GPU硬件的底层访问来提高性能。相较于OpenGL ES，Metal减少了10倍的代码拥挤，提供了更好的解决方案，并将会在苹果设备中取代OpenGL。Metal也支持英特尔HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C编程语言调用的面向对象的API。GPU的全部操作是通过Metal着色语言控制的。

2017年，苹果推出了Metal的升级版Metal2，兼容前代Metal硬件，支持iOS11，MacOS和tvOS11。Metal2可以在Xcode中更有效地进行配置和调试，加快机器学习速度，降低CPU工作量，在MacOS上支持VR，充分发挥A11 GPU的特性。

Vulkan是一种低开销，跨平台的3D图像和计算API。Vulkan面向跨所有平台的高性能实时3D图形应用程序，如视频游戏和交互式媒体。与OpenGL，Direct3D 11和Metal相比，Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了较低的CPU使用外，Vulkan还旨在使开发人员更好地在多核CPU中分配工作。

Vulkan源自并基于AMD的Mantle API组件，最初的版本被称为OpenGL的下一代。最新的Vulkan1.2发布于2020年1月15日，该版本整合了23个额外经常被使用的Vulkan拓展。

软件生态方面，GPU无法单独工作，必须由CPU进行控制调用才能工作，而CPU在处理大量类型一致的数据时，则可调用GPU进行并行计算。所以，GPU的生态和CPU的生态是高度相关的。

近年来，在摩尔定律演进的放缓和GPU在通用计算领域的高速发展的此消彼长之下，通用图形处理器（GPGPU）逐渐“反客为主”，利用GPU来计算原本由CPU处理的通用计算任务。

目前，各个GPU厂商的GPGPU的实现方法不尽相同，如NVIDIA使用的CUDA（compute unified device architecture）技术、原ATI的ATI Stream技术、Open CL联盟、微软的DirectCompute技术。这些技术可以让GPU在媒体编码加速、视频补帧与画面优化、人工智能与深度学习、科研领域、超级计算机等方面发挥异构加速的优势。以上4种技术。

Related Posts

欧洲杯德国27人名单：小猪诺伊尔领衔三新秀入选

骄奥青岛丨从田径运动员转型为雪车试滑员 这位青岛小伙为冬奥选手“探路”

【欧洲杯资讯】克罗地亚3-1苏格兰晋级；英格兰1-0捷克拿下D组第一

虎扑体育网

冬奥会残奥会和奥运会之间的区别是什么 世界三大运动会详解

梅西带领迈阿密起飞国际排名狂飙升202位可仍远低于C罗球队

发表回复 取消回复

骄奥青岛丨从田径运动员转型为雪车试滑员这位青岛小伙为冬奥选手“探路”

冬奥会残奥会和奥运会之间的区别是什么世界三大运动会详解

发表回复取消回复