发布日期:2025-03-03 22:03 点击次数:167
(原标题:AMD RDNA 4 架构杠杆证券利息,深度解析)
如果您希望可以时常见面,欢迎标星收藏哦~
来源:内容编译自wccftech,谢谢。
AMD 终于公布了其下一代 RDNA 4 GPU 架构的完整架构细节,该架构是专为 Radeon RX 9000 系列构建的。
自上一代RDNA 3 及其升级版 RDNA 3.5推出以来,AMD 的 RDNA 4 架构一直备受期待。虽然 RDNA 4 架构不会有任何超级发烧友 SKU,但它确实带来了全新的变化,应该会提升游戏性能,因为它主要为游戏玩家设计。
因此,AMD 对 RDNA 4 带来了以下新变化:
针对高端游戏工作负载进行了高度优化
提高光栅化和计算效率
光线追踪性能的重大改进
全面的高性能 ML 支持
增强所有工作负载的带宽效率
为游戏玩家和创作者提供多媒体改进
与 RDNA 2 相比,RDNA 4 GPU 的光栅化性能提升了近 2 倍,光线追踪性能提升了近 2.5 倍,每个计算单元的 ML(FP16 密集矩阵)工作负载提升了 3.5 倍。接下来,我们将深入研究 RDNA 4 架构框图的构建块,看看整个芯片是如何组合在一起的。
RDNA 4 的新核心 IP
RDNA 4 GPU 架构的核心构建块是计算引擎。
新的计算单元配备双 SIMD32 矢量单元和增强矩阵运算,其中包括:
2x-16b 和 4x-8b/4b 密集矩阵速率
4:2 结构化稀疏性,实现 +2 倍速率
新的 8b 浮点数据类型
带转置的矩阵负载
RDNA 4 还带来了新的着色改进,RDNA 4 着色可以动态分配寄存器。它们可以在需要时从池中请求寄存器。它们可以在完成这项工作后将寄存器释放回池中,并且软件会在分配等待时间时管理条件。这可以更好地处理内存延迟,同时共享核心的整体效率可以显著提高。
在标量单元方面,您可以获得新的 Float32 操作,同时调度更新包括拆分和命名屏障、加速溢出/填充操作和改进的指令预取。
然后我们有第三代光线追踪单元,提供双倍的光线交叉率、改进的 BVH 压缩、加速的光线遍历和着色以及定向边界框。这些新的光线追踪核心提供了芯片上最大的性能提升之一。每个光线加速器也得到了改进:
2x 盒子和三角形交叉单元
硬件实例转换
改进 RT 堆栈管理
BVH8 和改进的节点压缩
定向边界框
这些新的光线追踪升级还大大降低了 BVH 的内存要求。平均而言,得益于 8 宽设计,RDNA 4 可将内存要求降低至 RDNA 3 的 60% 以下。
但这并不是全部。AMD 还实施了一种新的解决方案,通过对每个框进行旋转编码来更紧密地绑定所包含的几何图形,从而降低遍历成本,同时将框与几何图形对齐可以帮助消除大部分空间,并且射线方向在进入框时会进行转换以匹配编码的旋转。这可以减少遍历步骤,通过消除遍历热点来降低峰值成本,并将遍历性能提高 10%。
这些变化的结果是,与 RDNA 3 相比,RDNA 4 CU 在相同的时钟速率和带宽下提供了 2 倍的光线遍历性能。
还有一个改进的命令处理器,它具有增强的数据包加速器。缓存也得到了升级,现在更加平衡,具有高达 64 MB 的第三代 Infinity Cache、8 MB 的 L2 缓存和 2MB 的聚合 CU 缓存。在内存方面,RDNA 4 GPU 架构保留了对 GDDR6 的支持,但已升级到更快的速度,最高可达 20.00 Gbps,容量高达 16 GB,并配有 256 位总线接口。RDNA 4 还采用了增强的内存压缩技术来减轻可用带宽的压力。
对于 AI,AMD 正在利用其第三代矩阵加速引擎,该引擎具有改进的张量密集率、新的 8b 浮点数据类型、结构化稀疏性支持和基于 ML 的升级或超分辨率。
与 RDNA 3 相比,RDNA 4 CU 在 FP16 的标准场景中将图像生成性能提高了 2 倍(SDXL 1.5)。
媒体引擎采用双宽度设计,配备更新的编码/解码引擎,AVC、H.264、H.265 质量提升高达 25%,AV1 吞吐量翻倍,并针对低延迟流媒体进行了优化。最后,还有更新的 Radiance 显示引擎,它现在支持 DisplayPort 2.1a、HDMI 2.1b 输出和更新的缩放和锐化引擎。
RDNA 4 框图(顶部 Navi 48 芯片)
接下来,我们转到代表完整 Navi 48 GPU SKU 的 RDNA 4 框图。RDNA 4 GPU 采用台积电 4nm 工艺节点制造,具有多达 539 亿个晶体管,SKU 尺寸为 356.5mm2。该芯片还完全符合 PCIe Gen5 标准。
现在是时候拆开 RDNA 4 芯片了。Navi 48 GPU(Radeon RX 9070 XT)由四个着色器引擎组成,每个引擎都包含多个“双计算单元”,而不是 WGP。每个双计算单元都有两个计算单元,每个着色器引擎总共有 8 个 DCU 或 16 个 CU。芯片本身总共有 32 个 DCU 或 64 个 CU,总共有 4096 个流处理器或着色器单元。
每个 DCU 都有两个光线加速器引擎,每个着色器引擎总共有 16 个 RA,总共有 64 个 RA,而每个 DCU 还包含 4 个矩阵加速引擎,每个着色器引擎总共有 32 个 MA,总共有 128 个 MA。每个着色器引擎还包含四个 RB+ 块、一个光栅化器引擎和一个 Prim Unit 块。芯片外围有四个第三代无限缓存部分和四个 4x16 位内存控制器。
L2 缓存位于 GPU 的正中间,其中还包括两个 Geometry 处理器、两个 ACE 单元以及 HWS 和 DMA 各一个。该芯片使用 Infinity Fabric 连接。
AMD 的未来之路
在 PC 游戏领域,光线追踪通常被视为过时的术语。当然,它是一种追踪光线的形式,可以使场景看起来更逼真,并且刚刚开始在游戏机领域获得关注,但竞争对手经常使用另一种类型的光线追踪器,称为路径追踪。虽然光线追踪使用单个主光线在光源上投射反射、阴影和折射,但路径追踪使用所有可能的光线路径,并且是一种更昂贵的技术。
NVIDIA 的路径追踪技术在《赛博朋克 2077》或《心灵杀手 II》等游戏中可见一斑,这些游戏被视为对图形要求最高的游戏之一,而且画面效果也绝对令人惊叹。通过升级和帧生成等新技术,路径追踪得以实现,但 Green 团队还投资了一项名为“光线重建”的全新技术,该技术通过移除引擎内的降噪器并使用 AI/ML 帮助重新评估和重建图像,帮助更有效地实现路径追踪。
看起来 AMD 也采用了这种方法,并采用自己的神经超级采样和去噪技术来实现 RDNA 4 的路径追踪功能。
升级的媒体和显示功能
如果不谈论媒体和显示引擎,我们就不能结束这次深入探讨。因此,首先,我们首先介绍新的媒体引擎,它通过以下方式提供增强的游戏流媒体和录制功能:
H.264 低延迟编码质量提升 25%
HEVC 编码质量提升 11%
B 帧提高了 AV1 编码效率
720p 编码性能提升高达 30%
针对 FFMPEG、OBS 和 Handbrake 进行了优化
VCN 低功耗视频播放(AV1 和 VP9 性能提升 50%)
显示体验也得到了改善,增强的 FreeSync 电源优化模式可在大多数双显示器配置中提供更低的空闲功率,硬件翻转队列支持可将视频帧调度卸载到 GPU 并节省 CPU 功率以进行视频播放,而 Radeon 图像锐化 2 可提供高质量的图像和场景,并通过单个切换在所有 API 上工作。
https://wccftech.com/amd-rdna-4-architecture-deep-dive-new-compute-units-raytracing-cores-ai-enhancements-path-tracing/
半导体精品公众号推荐
专注半导体领域更多原创内容
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第4050期内容,欢迎关注。
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
下一篇:没有了
Powered by 正规配资炒股官网_正规配资炒股平台_配资炒股优质平台 @2013-2022 RSS地图 HTML地图