NVIDIA RTX 30系列架构详解

安培GPU架构详解之：RTX光追升级从能用到好用

上代的图灵GPU架构最大的亮点就是引入了RTX实时光追技术，开启了3D游戏的光追时代，意义重大。

但是先行者的代价也不小，而且图灵GPU的光追效果在实际游戏中并不明显，对性能的影响颇大，第一代RTX光追只能说解决了有无问题，现在的安培GPU才是RTX光追更好用。

在图灵GPU上，NVIDIA使用的第一代RT Core可以提供10Giga Rays／s的性能，而在安培GPU上，RT Core升级到了第二代，号称性能翻倍，仅此一点就可以大幅提升光追性能了。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

图灵GPU光追架构

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

安培GPU光追

不过这还不够，在安培GPU上，参与光追应用加速的不只是SM单元、RT单元了，第三代Tensor Core单元也更多的参与其中，而安培架构中SM、RT、Tensor单元的性能都是大幅提升的，以RTX 3080为例，SM单元性能11T提升到了30T，RT性能从上代34T提升到了58T，Tensor性能从89暴涨到238T．

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

这带来的一个结果就是光追性能大幅提升，不支持硬件加速的Pascal GPU渲染一帧要51ms，图灵可以提升到19ms，加上DLSS等可以缩短到13ms，已经大大低于60fps所需的16．6ms帧时间了。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

在安培GPU上，时间还可以更快，单纯硬件加速就可以从13ms缩短到7．5ms，加上第二代技术的加成就只有6．7ms了。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

总之，在RT光追性能上，不说没有硬件加速的Pascal显卡，对比RTX 2080到RTX 3080的变化，软件渲染的性能提升了40％，硬件加速的话提升70％，硬件加速＋DLSS也提升了70％，再加上其他技术的辅助，最高可以提升90％的光追性能。

目前还没有实际评测解禁，具体游戏中的提升还不好说，但是刨去官方测试的理想状态，光追性能提升个50％应该无压力，这足以让当前的光追游戏更具实用性，不再是开了RTX性能就大幅下降的情况了。

至于我们可以预期，以前1080p 30fps运行的光追游戏在今年可以实现1080p 60或者2K 144流畅运行了，可用性至少提高一个等级，从凑合能用变得更好用了。

安培GPU架构详解之：第三代Tensor Core、8K游戏成为可能

Tensor Core是伏特GPU引入的一种新核心，现在也是SM单元的三大子核心之一，不过在数据中心GPU上，AI加速功能非常重要，所以A100大核心的Tensor Core占据了相当大的面积，功能及性能都改进不少。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

在GA102核心中，Tensor Core也是第三代架构的，但是跟GA100核心的还是有所不同，每组SM单元也是4个Tensor Core，但是性能减半。

但在游戏GPU上，Tensor Core的意义没那么大了，NVIDIA官方的应用中DLSS算是发挥AI加速比较好的，可以进一步提升游戏性能，这一次虽然还是DLSS 2．0，但是配合RTX 3090显卡强大的性能，8K DLSS游戏成为可能。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

8K游戏的分辨率是4K的4倍了，是1080p的16倍，光是高分辨率带来的挑战就足以让当前的高端硬件吃不消了，但在DLSS的加持下，RTX 3090在多款主流游戏中可以实现60fps以上的性能，最高可以超过100fps，可玩性已经不是问题。

这大概就是Tensor Core对游戏的重要意义，不过我们得说8K现在还比较遥远，性能跟上了硬件设备也跟不上，现在能玩好4K就差不多了。

安培GPU架构详解之：升级GDDR6X显存带宽堪比HBM2

除了GPU本体之外，显存技术这一代也升级了，上代的图灵GPU首发了GDDR6显存，这一次NVIDIA又迅速商业化了GDDR6X显存，其中RTX 3090不仅频率飙上了19．5Gbps，还达到了24GB超大容量。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

GDDR6X基于目前的GDDR6升级而来，基本架构和技术保持不变，重点加入了PAM4信令机制，在处理器和内存之间，使用四档电压，每个周期内编码和传输两个比特位。

对于PAM4机制，大家可以理解为闪存从SLC到MLC的升级，每周期传输的数据量可以翻倍，因此实现了超高速率的等效频率，起步就可以做到21Gbps，NVIDIA目前使用的略微保守，RTX 3090是19．2Gbps，RTX 3080是18Gbps。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

使用GDDR6X显存之后，在等效带宽提升50％的情况下，能效也提升了，每bit功耗降低了15％。

但是想象一下，如今GDD6X就可以实现HBM2显存的1TB／s带宽，但又不需要后者那么复杂的工艺和成本，在消费级显卡上真的可以不需要考虑HBM2了。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

安培GPU架构详解之：视频解码、接口、PCIe 4．0

在安培GPU上，还有一些其他技术升级，这里简单说一下吧：

·AV1视频解码升级支持8K

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

8K是NVIDIA这次升级的一个重要，除了游戏性能可以支持8K之外，接口及解码上也做了准备。

首先，安培GPU更新的NVDEC首次实现了AV1的8K 60p解码支持，这个编码比H264能够节省大量带宽，但CPU软解的话，9900K这样的CPU占用率也要达到85％，而安培GPU的NVDEC硬解占有率只有4％，同时帧速能从28fps达到60fps，流畅度也提升了。

·首发HDMI 2．1接口、8K输出

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

输出接口方面，除了3个DP1．4a接口之外，这次首发了HDMI 2．1接口，支持4屏输出，48Gbps的新接口可以实现8K 60Hz HDR支持，适合搭配新一代显示器。

·支持PCIe 4．0 不用担心性能损失

RTX 30系列显卡还支持了PCIe 4．0，这也是大势所趋了，不过PCIe 4．0的问题在于只有AMD的X570平台才能完整支持，Intel的桌面平台还没支持的，有些尴尬。

玩家可以考虑搭配AMD的锐龙平台，但也不必为了PCIe 4．0强行搭配，NVIDIA表示PCIe 4．0降回PCIe 3．0对性能影响有限，只有几个百分点，还不如CPU的影响大，言外之意就是该用酷睿i9－9900K或者酷睿i9－10900K的继续。

游戏工具升级：Reflex、Broadcast、Omniverse Machinima

这几年中NVIDIA在显卡市场份额不断提升，不仅仅跟显卡的性能、功耗有关，他们在软件及体验上也着墨不少，GFE中集成了多个备受游戏玩家欢迎的工具，比如Ansel、Highlights等等。

在安培显卡上，NVIDIA这次又带来了三项新功能，包括降低延迟的NVIDIA Reflex、AI加速的直播NVIDIA Broadcast以及NVIDIA Omniverse Machinima。

·NVIDIA Reflex：延迟再降50％

游戏玩家，特别是网络游戏对延迟很敏感，这个延迟不仅仅跟网络、显卡性能有关，还跟系统有关，包括键鼠的输入延迟等。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

NVIDIA Reflex就是一款可以降低延迟的工具，在支持该技术的游戏中，如《Apex英雄》、《使命召唤：战区》、《堡垒之夜》、《VALORANT》等热门电竞游戏，可将延迟降低50％。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

此外，NVIDIA Reflex未来还会有个Reflex延迟分析器（Reflex Latency Analyzer），它可监测鼠标点击，并测量屏幕上相应像素变化所需的时间，比如枪焰闪光，效果堪比超过7000美元的专用高速摄像机和设备。

·NVIDIA Broadcast：游戏主播的好帮手

如今游戏跟直播息息相关，NVIDIA Broadcast软件可以让游戏主播更加轻松省力，它通过显卡的AI加速实现了多种功能，比如噪音消除、虚拟背景、自动框显，从而提升麦克风和网络摄像头的效果。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？

·NVIDIA Omniverse Machinima：自己拍大片

Omniverse Machinima一款引擎电影工具，它可以让玩家利用游戏中的资源自己拍电影，精确地模拟光线、实物、材料和人工智能，并且可以适用于大部分第三方设计工具，如3DS、Max、Maya、Photoshop、Epic Unreal和Rhino等，最终使用RTX系列显卡渲染出电影级的效果。它也是游戏开发商制作游戏CG的利器，显著简化制作游戏过场动画的流程。

NVIDIA RTX 30系列架构详解：8nm安培GPU的两倍性能从何而来？