AMD RDNA3架构深入揭秘：一大分七小、AI/光追飞跃！

频道：行业资讯日期：2022-12-11 21:51:58 浏览：1353

一、RDNA3三大核心模块解析

作为各家新处理器、新显卡平台中最后一个登场的，AMD RDNA3架构的RX 7000系列显卡终于来了！

新品正式解禁上市前，AMD也向快科技分享了诸多细节，包括芯片设计、架构布局、技术特性等，一起先睹为快！

AMD高级副总裁、大中华区总裁潘晓明先生(Spencer Pan)表示，AMD一直致力于将优异的Radeon显卡带给发烧友和游戏市场，用不断精进的图形能力令用户收获极致体验，用一款又一款的优秀产品引领行业进入一个全新高性能时代。

对于全新的RX 7000系列显卡，潘晓明一样充满了期待与憧憬，并强调，AMD将一如既往的为广大玩家和行业带来优秀的产品，满足时代的需求。

AMD Radeon技术事业部工程研发高级副总裁王启尚表示，AMD的愿景是为全世界数十亿的游戏玩家能够提供更卓越的游戏体验，包括锐龙处理器、Radeon显卡、云游戏服务，以及PS5、Xbox Series X/S、Valve Steam Deck新一代的游戏机，还有最新的特斯拉电动汽车，把游戏体验带进汽车市场。

OK，接下来进入RDNA3的奇妙世界。

众所周知，如今的高端GPU越发复杂、庞大，晶体管数量动辄几百亿，尽管有更先进工艺的加持，但在性能提升的同时，功耗也急剧飙升，不得设计夸张的散热方案，甚至离不开水冷，导致能效比(每瓦性能)非常差。

AMD RDNA则从诞生开始就是一个极其高能效的GPU架构。初代就比此前的Vega架构在能效提升了多达50％，RDNA2又提升了54％，如今的RDNA3居然再次提升了54％，又一次超越了原定的设计目标！

三代RDNA架构发展下来，能效累计提升幅度已经超过350％，在整个GPU历史上都堪称一个奇迹。

RDNA3架构最大的创新之一，就是将AMD锐龙、EPYC上大获成功的chiplet小芯片设计，第一次引入到了GPU之上。

AMD将一颗完整的大芯片按照功能模块划分成不同的小芯片，各自使用最合适的制造工艺，再通过带宽高达5.3TB/s的高性能扇出型封装互连，组合成一个有机的整体。

RDNA3家族的顶级核心Navi 31，一共包括一个GCD、六个MCD。

其中，GCD也就是Graphics Compute Die，包括计算单元、显示单元、媒体单元等，采用先进、昂贵的5nm制造工艺，面积约306平方毫米。

MCD也就是Memory Cache Die，包括显存、Infinity Cache无限缓存，采用成熟的6nm制造工艺，单个面积约37.5平方毫米。

Navi 31核心总面积约531平方毫米，共有577亿个晶体管，集成密度约1.1亿个晶体管/平方毫米。

相比之下，RX 6900系列所用的Navi 21核心为单芯片设计，台积电7nm，268亿晶体管，面积519平方毫米，集成密度约5160万晶体管/平方毫米。

换言之，Navi 31在总面积几乎不变的情况下，晶体管数量翻番，密度也翻了一倍。

作为对比，NVIDIA RTX 4090 AD102核心仍是单芯片，台积电4N工艺(本质也是5nm)，608平方毫米，763亿晶体管，集成密度1.26亿个/平方毫米。

MCD部分比较简单，每颗内部集成一个64-bit GDDR6显存控制器、16MB Infinity Cache无限缓存，后者频率为2.3GHz。

六颗组成384-bit、96MB的规格，合计带宽最高达5.3TB/s，比RDNA2架构提升了足足2.7倍。

其中单纯由384-bit 20GHz GDDR6显存提供的带宽最高为960GB/s，剩下的超过80％都来自Infinity Cache。

那么，为什么还是不使用更高频率的GDDR6X显存？

王启尚指出，RDNA 3架构旨在提高能效，而GDDR6X显存需要更高的供电以维持更高的带宽。AMD Infinity Cache这样的创新技术搭配GDDR6，就可以在更低的功耗下，实现更高的显存带宽性能。

GCD部分主要可以分为三大块儿，分别是统一计算单元、显示引擎、双媒体引擎，都是全新设计的。

接下来，我们逐一看下这三大件。

CU计算单元，仍然是RDNA3的基本组成模块，但这次焕然一新，而且有了新名字，叫做“统一计算单元”。

何谓统一？就是图形渲染、光线追踪、人工智能可以共享所有的计算资源，提供更高的单位功耗性能、单位面积性能。

计算单元内部又可以分为几个不同功能模块，首先是VGPR(通用寄存器)，负责资源的共享与调度分配，其容量比RDNA2上增加了50％，从而提升了所有功能的性能。

顺带一提，计算单元部分的集成度非常高，单位面积晶体管比上代增加了足足165％。

流失处理器模块，RDNA3架构迈进了一大步，采用Dual Issue也就是双路发射设计，能够向Wave32 SMID单元同时派发两路不同的指令。

这个指令可以是整数，可以是浮点，可以是AI，看需要而定。

这就让指令分发效率直接提升了一倍，可以更好地利用计算单元中的所有功能，达成更高的性能、能效，而且混合指令的利用也更加灵活、高效。

RDNA3还极大地强化了AI，每个计算单元内有两个AI加速器，并加入新的AI指令，提升AI吞吐量，综合性能提升超过2.7倍，可以轻松满足当下乃至未来AI加速场景的需求。

光线追踪也进化为新一代，可实时跟踪的光线数量增加了多达1.5倍，还有新的光追专用指令集、新的光线盒排序与遍历算法。

最终，RDNA3每个计算单元的光追性能提升了多达50％，虽然不能说超越对手，但至少大大缩小了差距。

RDNA3架构还设计了新的“时钟频率解耦”(Decoupled Clocks)机制，也就是让着色器、前端的工作频率彼此独立，都跑在最合适的频率上。

其中，前端频率为2.5GHz，比上代提高了15％，可以更高效地处理工作负载；着色器频率为2.3GHz，能效更高，可以节省最多25％的功耗。

这一设计也为整体能效再进一步做了很大的贡献。

总的来说，凭借一系列改进，RDNA3的计算性能提升了足足2.7倍，浮点计算能力达到61TFlops(每秒61万亿次计算)。

多媒体一直是AMD GPU的强项，各种新技术、新标准总是会优先尝试。

RDNA3集成了新的Radiance显示引擎，不但支持HDMI 2.1a，还行业第一家率先支持最新的DisplayPort 2.1视频输出标准，包括UHBR 13.5，而现在距离新标准正式发布还不到一个月！

DP 1.2可提供最高54Gbps的显示链接带宽，这足以支持8K165Hz、4K480Hz、2K900Hz的超高清高刷显示输出，还能以每通道12-bit色深，渲染出惊人的680亿种颜色。

支持如此超高分辨率、超高刷新率，一方面可以显示更丰富、更高质量的视频内容，另一方面也可以更适应超高帧率游戏。

RX 7900系列本就是面向未来4K游戏的，而在当下主流的2K分辨率，很多游戏都可以跑出超高帧率，比如《守望先锋2》超过600FPS，《无畏契约》超过800FPS，使用DP2.1可以让游戏帧率、显示器刷新率更加匹配，游戏体验更加丝滑。

戴尔、三星、华硕、LG、宏碁等都在开发DP 2.1接口的显示器，预计将从2013年初开始陆续上市。

最后是新的双媒体引擎，频率提升多达80％，首次加入了对AV1格式的支持，可以做到8K60的编码、解码。

目前，各家GPU方案都已经完整支持AV1，再加上移动SoC的跟进，硬件平台已经完全到位。

另外，RDNA3还支持AVC、HEVC(H.265)格式的同步编解码，效率更高，并引入了AI增强视频编码，包括串流预分析、串流预滤波等。

值得一提的是，RDNA3架构还支持全新的SmartAccess Video协同编解码技术，可在锐龙处理器、Radeon显卡之间智能划分解码和编码工作负载，4K分辨率下的多串流编码中，可提供最高30％的性能提升。

汇总一下RDNA3 Navi 31 GPU的主要亮点：

1、首次小芯片设计，频率提升15％，能效提升54％。

2、峰值带宽提升2.7倍，浮点性能高达61TFlops。

3、统一计算单元，每时钟周期双指令发射，升级光追单元，加入AI单元。

4、全新显示、媒体引擎，完整支持DP 2.1输出、AV1编解码。

游戏特性方面，重点说一下AMD FSR。

截止10月底，AMD FSR超分辨率技术已经覆盖216款游戏，其中85款已为最新的FSR 2.x。

下一个“小”版本是FSR 2.2，重点进一步改善画质，比如减少快速移动物体的重影，同样基于时域放大算法，不需要依靠AI或者专用的AI硬件，《极限竞速：地平线5》首发支持。

下一个“大”版本是FSR 3，支持全新的AMD Fluid Motion frame补帧技术，预计可带来比FRS 2最多2倍的帧率提升，2023年推出，正面对标NVIDIA DLSS 3。