英伟达“大杀器”，AI时代最强超级芯片来袭！

在最近爆火的AI热潮中，英伟达H100 GPU已成为当前进行人工智能训练的最强引擎，但就在昨日，全球图显兼AI计算霸主英伟达又放出新的大杀器——下一代GH200 Grace Hopper超级芯片，专门为加速计算和生成人工智能时代而打造！

在8月8日举办的在计算机图形年会SIGGRAPH上，创始人兼CEO黄仁勋发布了多款硬件，并表示“生成式AI是AI的‘iPhone时刻’”！

（发布会视频截图）

加速计算和生成式AI时代的处理器

最引人注目的，便是英伟达全球首发的下一代GH200 Grace Hopper超级芯片，配备全球最快内存HBM3e，可极大降低大模型推理成本。

GH200 Grace Hopper芯片又被称为“加速计算和生成式AI时代的处理器”，该产品依赖于高带宽存储器3（即HBM3e），后者能够以每秒钟高达5TB的速度访问信息。

据悉，HBM3e是一种高带宽内存，带宽达每秒5TB。该内存比当前的HBM3快50％，可提供总共每秒10TB的组合带宽，使新平台能运行比前代大3．5倍的模型，同时通过快三倍的内存带宽提高性能。

（发布会视频截图）

值得一提的是，GH200 Grace Hopper超级芯片平台提供了卓越的内存技术和带宽，以此提高吞吐量，提升无损耗连接GPU聚合性能的能力，并且拥有可以在整个数据中心轻松部署的服务器设计。

黄仁勋表示，在AI时代，英伟达的技术可以替代传统数据中心，投资800万美元的新技术可以取代用旧设备建造的1亿美元设施，而且用电量可以减少20倍。“这就是数据中心在向加速计算转变的原因。你买的越多，越省钱。”

此外，英伟达的超大规模和高性能计算主管Ian Buck介绍，GH200比英伟达基于H100的数据中心系统配备了更多内存和带宽。它采用的英伟达的Hopper GPU，并结合基于Arm架构的英伟达Grace CPU。

相比前代平台，新GH200 Grace Hopper平台的双芯片配置将内存容量提高3．5倍，带宽增加三倍，一个服务器就有144个Arm Neoverse高性能内核、8 petaflops的AI性能和282GB的最新HBM3e内存技术。

英伟达表示，这款名为GH200的超级芯片将于2024年第二季度投产。

RTX 5000／4500／4000工作站显卡

这次，英伟达还推出了新款基于Ada Lovelace架构的桌面AI工作站GPU系列。

从今天开始，英伟达将由BOXX、戴尔、惠普和联想等合作伙伴提供全新的RTX Ada工作站解决方案。这些系统最高可配备RTX 6000 GPU。NVIDIA RTX 6000是去年发布的旗舰级Ada显卡，拥有18176个CUDA核心，48 GB GDDR6X显存，以及2．50 GHz的加速频率。可以提供91．1 TFLOPs的单精度浮点运算性能，以及1458 TFLOPs的张量运算性能。

（发布会视频截图）

除此之外，英伟达还将以更实惠的价格推出三款采用相同Ada架构的新GPU——RTX 5000、RTX 4500和RTX 4000。这些显卡都采用了台积电 4N 工艺制造，具有以下特点：

NVIDIA CUDA 内核：与上一代相比，单精度浮点吞吐量高达 2 倍。

第三代 RT 核心：相比上一代，光线追踪吞吐量提高了 2 倍，并且可以同时进行光线追踪、着色或降噪。

第四代张量核心：相比上一代，AI 训练性能提高了 2 倍，并且支持了 FP8 数据格式。

DLSS 3：借助 AI 的力量，为实时图形带来更高的真实感和交互性。

更大的显存容量：RTX 4000 提供 20 GB GDDR6 显存；RTX 4500 提供 24 GB GDDR6 显存；RTX 5000 提供 32 GB GDDR6 显存。这些显存都支持纠错码技术，可以保证处理大型 3D 模型、渲染图像、仿真和 AI 数据集时不出错。

扩展现实能力：支持高分辨率的增强现实和虚拟现实设备，为创造令人惊艳的 AR、VR 和混合现实内容提供高性能图形。

在性能方面，RTX 5000 Ada 相比 RTX A5500 提高了 3 倍；RTX 4500 相比 RTX A4500 提高了 2．7 倍；RTX 4000 相比 RTX A4000 提高了 1．7 倍。

全新NVIDIA OVX服务器

英伟达还推出了全新NVIDIA L40S GPU的NVIDIA OVX服务器，可用于加速AI训练和推理、3D设计和可视化、视频处理和工业数字化等复杂的计算密集型应用。

（发布会视频截图）

NVIDIA OVX是针对服务器的参考架构，针对图形、计算、存储和网络进行了优化。全新OVX系统将在每台服务器上启用多达8个L40S GPU，每个GPU配备48GB GDDR6超快内存。

L40S是一款功能强大的通用数据中心处理器，基于Ada架构，内置第四代Tensor Core和FP8 Transformer Engine，提供超过1．45PFLOPS的张量处理能力。

对于具有数十亿参数和多种数据模式（如文本和视频）的复杂AI工作负载，与A100 GPU相比，L40S可实现快1．2倍的AI推理性能、快1．7倍的训练性能、快3．5倍的渲染速度，启用DLSS3时Omniverse渲染速度更是能高到近4倍。

L40S包含18176个CUDA内核，提供近5倍于A100 GPU的单精度浮点（FP32）性能，以加速复杂的计算和数据密集型分析，支持对于工程和科学模拟等计算要求苛刻的工作流程。

为了支持实时渲染、产品设计和3D内容创建等高保真的专业可视化工作流程，L40S GPU内置有142个第三代RT核心，可提供212TFLOPS的光追性能。

L40S GPU将于今年秋季上市。NVIDIA之前投资的CoreWeave是首批提供L40S实例的云服务提供商之一。

英伟达“大杀器”，AI时代最强超级芯片来袭！

相关推荐