一文彻底读懂:英伟达GPU分类、架构演进和参数解析

了不起的云计算
关注

各位小伙伴们,大家好哈。

这几年GPU很火,尤其是今年初DeepSeek的爆火,让英伟达几乎成为全球最受关注的公司。但英伟达GPU 的产品分类较为复杂,涉及到架构代号、性能参数等,这使得用户看不懂很多GPU技术参数。

图片

今天这篇文章,我就给大家详细梳理一下这些英伟达GPU产品分类、架构演进和命名特点等相关内容,顺便科普一下相关的知识。

▌英伟达常见GPU产品分类

在普及GPU的时候,我们需要先区分下GPU和显卡的区别。

图片

不熟悉的小伙伴经常习惯性GPU和显卡等同起来,其实它们并不是一个东西,显卡生产厂家有很多,比如国内的七彩虹,它就是将英伟达的GPU芯片做了包装,然后卖自己的品牌。下面我们来看一下英伟达常见的一些GPU分类。

1.GeForce系列(消费级/游戏与创作)

这个系列主要面向游戏玩家、内容创作者及个人计算用户,搭配台式机和笔记本。常见的产品型号如GeForce RTX5090、4090等。

GeForce系列注重提供高性能的图形处理能力和游戏特性。它们具备实时光线追踪(Ray Tracing)和DLSS(Deep Learning Super Sampling)等先进技术,提供更逼真的游戏画面和流畅的游戏体验。

2.Quadro系列(P系列):

Quadro系列是英伟达专业级GPU产品线,针对商业和专业应用领域进行了优化。常见的产品型号如NVIDIA RTX A6000、A5000等。

Quadro GPU具备强大的计算能力、大容量显存和专业特性,如双精度浮点运算和驱动程序的优化。主要用于计算机辅助设计(CAD)、动画制作、科学计算、虚拟现实等需要高精度计算和可靠稳定性的专业领域。

3.Tesla系列(T系列):

Tesla系列主要用于高性能计算和机器学习任务,在计算能力和深度学习加速方面有突出表现。

Tesla GPU集成了深度学习加速器(如NVIDIA Tensor Cores),提供快速的矩阵运算和神经网络推理。主要应用于科学计算、数据分析、深度学习等高要求的计算任务。

以上这个三个系列是大家比较熟悉的GPU系列,除此之外,还有面向移动处理器产品线的Tegra系列;面向面向边缘计算和人工智能应用的嵌入式开发平台Jetson系列;面向面向深度学习和人工智能研究的高性能计算服务器DGX系列等等。

这些产品线在不同领域和应用中展示了英伟达在计算与图形处理技术方面的广泛应用和创新。选择合适的产品线取决于具体的需求、预算以及所需的特性和性能。

▌GPU常见的各种核心

聊到GPU,我们经常会谈到GPU的各种核心,在通用的GPU中,存在三种核心:Cuda Core、Tensor Core和RT Core。如果我们将这些核心比作工厂中的流水线,那么这三类流水线各自具有独特的特性。

CUDA Core:英伟达GPU的参数中,最常看到的核心类型。Nvidia通常用最小的运算单元表示自己的运算能力,CUDA Core 指的是一个执行基础运算的处理元件。我们所说的CUDA Core数量,通常对应的是 FP32 计算单元的数量。

Tensor Core:核心特别大,用于机器学习加速,它可以把整个矩阵都载入寄存器中批量运算,实现十几倍的效率提升,从Volta 架构发布以来,奠定了英伟达在AI训练的领军地位,每次升级都有新支持的数据类型。

RT Cores:正常数据中心级的GPU核心是没有RT Core的,主要是消费级显卡才为光线追踪运算添加了 RT Cores,考虑到芯片的空间有限,每个SM里面只有1个光追核心(为此还砍掉了大部分的 FP64)。可以极大地提升了游戏渲染效率。

▌英伟达GPU架构演进过程

英伟达的GPU,每隔几年就会出一个新的架构。英伟达不同架构下的 GPU,其性能变化对模型推理速度有着显著的具体影响。在计算能力方面,从早期架构到如今的先进架构,CUDA 核心数量不断增加,如从 Kepler 架构开始,SM 单元中的 CUDA 核心数大幅提升,这使得通用计算能力得到极大增强。

英伟达每个架构,都会以一个著名科学家的名字命名,截至目前发布,已经有 11 款芯片架构代号取自科学家名字。如下所示:

Tesla架构(2006)

NVIDIA Tesla 是全球机器先进的数据中心 GPU,Tesla 加速器有能力以前所未有的超快速度运行更大型的模拟。

Nvidia 的 Tesla 架构作为其首个实现统一着色器模型的微架构,提升了 GPU 灵活性与效率,支持 C 语言编程,为后续 GPU 发展奠定了基础。

Fermi 架构 (2010)

Fermi 架构是 NVIDIA 第一个完整的 GPU 计算架构,支持 ECC 和多任务 CUDA Core 处理,强化了 GPU 的计算能力和错误修正能力。

Fermi 引入了多个图形处理簇 (GPCs),每个包含多个流处理多处理器 (SMs),都具备较高的并行处理能力和更好的散热效果。

Kepler 架构 (2012)

Kepler 首次支持 GPU Direct 技术,使得多个 GPU 之间可以直接进行数据传输,避免通过 CPU 中转,减少延迟和增加带宽。

通过优化 CUDA Core 的布局和性能,显著提高了 GPU 的能效比。引入了动态并行技术,允许 GPU 在执行过程中动态调整并行任务的数量和类型,极大地提升了灵活性和计算效率。

Maxwell 架构 (2014)

Maxwell 架构减少了每个处理块的 CUDA Core 数量,增加了更多的控制逻辑,使得 GPU 能够在同等功耗下提供更高的性能。

此外,Maxwell 引入了第一代 DSR 技术和 MFAA 技术,提升了图形质量和渲染效率。GM107 核心(如 GeForce GTX 750 Ti),能效提升一倍,支持 DirectX 12。

Pascal 架构 (2016)

Pascal 架构在 GPU 计算能力上有了质的飞跃,首次引入 HBM2 内存和 NVLink 技术,显著提高了带宽和支持的数据传输速率。同时支持多达 16 个 SM 和新的半精度浮点数 (FP16) 运算,为 AI 训练和推理提供加速。

GP100(如 Tesla P100),采用 16 nm 工艺和 HBM2 显存,支持深度学习框架。计算性能比前代提升 50%,显存带宽 732 GB/s。

Volta 架构 (2017)

引入了 Tensor Core,专门设计用于加速深度学习应用中的矩阵运算。它还提升了 NVLink 的带宽,并引入了新的 HBM2 内存技术。

Volta 在 AI 计算和图形处理方面均有显著提升,GPU 架构进一步优化了内存使用和数据传输效率。GV100(如 Tesla V100),引入 Tensor Core 加速矩阵运算,AI 算力达 112 TFLOPS。支持 NVLink 2.0,多 GPU 协作性能提升。

Turing 架构 (2018)

Turing 架构集实时光线追踪、AI、模拟和光栅化于一身,标志着 NVIDIA 在光线追踪技术上的重大突破。配备全新 RT Core 和 Tensor Core,首次实现实时光线追踪。改进 Tensor Core,每秒可提供高达 500 万亿次的张量运算。

此外,它引入了新的 GDDR6 内存,提高了内存速度和带宽,为图形密集型应用和游戏提供了更高的性能。

Ampere 架构 (2020)

Ampere 架构引入了第三代 Tensor Core,提供了更强大的 AI 训练和推理能力以及更加逼真的图形渲染性能,支持更多的数据类型和更高的计算效率,同时也推出了多实例 GPU (MIG) 技术,允许单个 GPU 资源在多个用户间进行分割,提高了硬件的使用效率。

GA100(如 A100),支持 TF32 和 BF16 数据格式,稀疏矩阵计算优化。显存带宽达 1.6 TB/s,AI 训练效率显著提升。

Hopper 架构 (2022)

Hopper 架构采用先进的台积电 4N 工艺制造,拥有超过 800 亿个晶体管,通过五项突破性创新技术,助力全球 AI 基础设施引擎实现数量级的性能飞跃。引入了第四代 Tensor Core 和多项创新技术,包括改进的 NVLink 和新的 HBM3 内存技术。

它专为 AI 计算和高性能计算场景设计,提供了前所未有的计算速度和效率,同时支持更复杂的 AI 模型和算法。

Ada Lovelace 架构 (2022)

Ada GPU 架构能够为光线追踪和基于 AI 的神经图形提供革命性的性能。该架构显著提高了 GPU 性能基准,更代表着光线追踪和神经图形的转折点。

Blackwell 架构 (2024)

Blackwell 架构引入了第五代 Tensor Core,支持新的数据类型和 AI 训练技术,提供了极高的计算效率和能效比。优化了 GPU 内部的数据传输和处理机制,为处理大规模数据集和复杂的 AI 模型提供了强大的支持。

B200/GB200 超级芯片,集成 2080 亿晶体管,第二代 Transformer 引擎支持 FP4 推理。性能较 Hopper 提升 30 倍,能耗优化 25 倍。

▌英伟达数据中心GPU相关产品命名

Nvidia 的芯片产品已成为推动人工智能领域进步的关键力量。通过这样的命名方式,Nvidia 将科技与人文紧密地交织在一起,为我们呈现了一部精彩纷呈的 GPU 架构进化史。

每一个芯片名字背后,是每一位科学家们智慧和成就的时空跨越,并在 Nvidia 的 GPU 架构中得以延续和升华。

例如,数据中心GPU的首字母是架构的缩写。例如B代表Blackwell、H代表Hopper,A代表Ampere、L代表Lovelace、都是用世界著名的科学家名字来命名。

数字往往代表GPU产品的等级或者性能表现。每一代的产品英伟达都会设计低中高不同价格、性能和功耗的GPU。

数字部分越大,通常代表GPU越强大、价格越昂贵(A800和H800这类阉割版产品除外)。比如:H100、A100、V100这类产品型号代表的同一代产品中的旗舰产品,价格最昂贵、性能最强大。也拥有最高的核心数和最大的显存,专为大型模型推理以及训练而设计。

另外,某200一般是某100的升级版。例如H200,就是H100的升级版(采用了HBM3e内存等升级)。

还有1个型号大家应该比较熟悉——H20。

这是英伟达因为美国出口限制而推出的阉割版(特供版),专门为了中国用户制造,但是目前也被限制了,据说最新定制版是基于B200来设计的,名字很可能也是对应的阉割版B20。

L40和L40s名字稍微有点特别,两者基于Ada Lovelace(世界上第一个女程序员的名字)架构,后者是前者的升级版。两个卡都是针对数据中心市场推出的,主打低成本和性价比。

PCIe和SXM是GPU的两种接口类型。

另外,基于刚才的各种芯片平台,英伟达构建了对应的计算机平台,包括HGX、DGX、EGX、IGX、MGX等。

HGX H100:是我们常说的GPU模组,通常把8张H100 SXM加上Nv switch板子整合一起,逻辑上是一个大的“GPU” 。

DGX H100:英伟达官方整机,含了HGX H100,还有服务器的其他部件,机箱、主板、CPU、内存、硬盘等。

DGX POD:以DGX H100为核心的集群方案还包括了IB网络、IP网络、存储、管理节点等。

DGX GB200 NVL72:是目前最火的超节点产品形态,由 NVIDIA Grace Hopper 超级芯片和 NVIDIA NVLink Switch System 驱动的 NVIDIA DGX超级计算机。

▌GPU产品核心参数情况说明

理解GPU的关键参数可以帮助您评估其性能和适用性。下面是一些GPU的重要参数及其含义,我也通过一些举例子的方式帮助大家更好的理解这些参数的意义。

算力大小:指的是GPU执行浮点运算的能力,通常以TFLOPS(每秒浮点操作次数)为单位衡量。但目前各类算力参数眼花缭乱,比如FP64、FP32、FP16、还有FP16 Tensor Core等,到底该用哪个数值呢?

一般情况下,按照目前的主流方案,通常会采用FP16 Tenser加速的989TFPOPS,约1个P来计算,当然某些项目依然还是用稀疏的算力单卡2P,一般用稀疏矩阵加速后数值做营销,对使用场景有条件限制(并不是所有的场景都能达稀疏算力的性能)。

我们举一个不是特别恰当的例子。我们可以将GPU算力比作一辆货车,不同的算力值比作货车不同的档位所能达到的运行速度,Tenser Core就好比英伟达专门为了AI加速优化出来的速度,就像货车的涡轮增压系统,能够为货车提供更强劲的性能。

核心数量:GPU的核心数量也被称为CUDA核心(NVIDIA的术语)或流处理器(AMD的术语)。核心数量是评估GPU并行处理能力的重要指标。核心数量越多,GPU在执行图形和并行计算任务时通常表现得越好。

这里我们可以将GPU的核心数量比作一节节车厢的货运火车,货车的车厢越多,运送货物的能力就越强。

核心频率:也称为GPU的时钟速度,以MHz(兆赫)或GHz(吉赫)计量。它表示GPU核心的运行速度。频率越高,GPU处理信息的速度越快。同理,核心频率越高的GPU,处理信息的速度就越快。

显存类型:GPU使用的显存类型直接影响其性能。常见的类型包括GDDR5、GDDR6等,其中GDDR6相比GDDR5提供更高的速度和带宽。不同类型的显存就相当于不同火车的车厢。

显存容量:显存是GPU用来临时存储正在处理的图像数据的内存。容量越大,GPU处理高分辨率和复杂图形任务的能力越强。

显存大小决定了GPU能够“装下”多少的数据,类比就是每节火车车厢能装下多大尺寸(重量)的货物。显存类型与带宽密切相关,HBM显存好比火车用机械装卸货速度快且好,普通GDDR好比人工的装卸货方式,要慢很多。

显存带宽:这是一个衡量GPU与其显存之间数据传输速度的指标。

显存容量就相当于卸货或者装货的火车能承载的最大速度,带宽越高,意味着数据交换越快,GPU的性能也越强。

制造工艺:指GPU芯片制造时使用的半导体技术,以纳米(nm)为单位。工艺越先进,通常意味着功耗更低,性能更高。

制作工艺这个就相当于制作火车的工艺,制作普通绿皮火车的工艺肯定比制作高铁的工艺制作出来的火车能运货。工艺越先进,通常意味着功耗更低,性能更高。

支持的技术:这个就像越高级的火车支持的功能越多,GPU的新技术包括光线追踪、AI加速、虚拟现实等。这些技术的支持不仅显示了GPU的现代化程度,还能拓宽其应用领域。

图片

好啦,关于英伟达的主要产品分类、架构演进以及命名规则等相关内容,就介绍到这里。也希望大家动动手指,多多点赞转发,并关注我们的公众号内容。多谢啦!

       原文标题 : 一文彻底读懂:英伟达GPU分类、架构演进和参数解析

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存