首先,RDNA3是 一个问题集合体。
限制RDNA3的问题更多的来自缓存和显存带宽。
很多人觉得 7900XTX 有 96M无限缓存+ 384BIT位宽的显存很大。
实际上 RDNA3 是多芯片结构,实际是 6 X (16M + 64BIT) 也就是1组SA直接连接1片MCD 16m缓存+64BIT显存,共6个SA。虽然看上去是 96M无限缓存,但实际上跨SA调用数据需要绕一圈才能访问到,参考 2990WX这个U的跨die访问内存模式,实际上带宽瓶颈很大。
而且因为要走PCB,所以MCD即使频率能提高,但因为PCB会限制数据传输瓶颈,参考ZEN的FCLK一直在2000出头,也就是说MCD的无限缓存超过2G后再提升就没有什么用了。
所以 RDNA3的 带宽会有很严重的瓶颈。
所以,RDNA3在 低频上比RDNA2同 CU高 15%的性能,而在高频下 提升几乎为0。
也就是说,RDNA3比预想的情况低15%的性能,而且在高频下因为要频繁访问6个IO,浪费在IO上的功耗巨大,导致频率很难提升,实际7900XTX号称能跑3G,但实际大部分时间也就跑 2.5G出头。
而RDNA4使用的是和RNDA2那样2片32M无限缓存+128BIT显存,
这样
1、大幅度提升带宽。
2、IO数量降低,使得不会因为频繁跨die访问数据使得IO功耗大幅度降低。
3、IO不浪费太多功耗,使得CU单元分到更多的功耗提升频率。
参考 ZEN2到 ZEN3 吧缓存合并,大致能提升10%的性能。
所以 RDNA4 通过把RDNA3的带宽问题解决,就能提升 15%的提升,而吧单SA 16M缓存+64BIT改成共享32M+128BIT显存 又能提升 10%,所以在缓存上 RNDA4就能比 RDNA3 提升 25%的性能。
而改了IO后,IO功耗下降,使得频率得到了提升。从 2.5G-2.6G到2.8G-2.9G又 大致能提升10%的性能。
也就是说即使CU没提升 RDNA4 大致单CU能 提升 1.25X1.1=1.375。也就是 37.5%的提升
64CU X 1.375=88cu RDNA3的水平。
参考现在的消息,很符合 9070XT 略强于 84CU的 7900XT,但不如 96CU的7900XTX的水平。
从这点计算基本得出, RDNA4 的 CU单元几乎没提示,光解决 RDNA3的带宽问题就能有这样的提升。
也可以看出 RNDA3 翻车有多严重。
限制RDNA3的问题更多的来自缓存和显存带宽。
很多人觉得 7900XTX 有 96M无限缓存+ 384BIT位宽的显存很大。
实际上 RDNA3 是多芯片结构,实际是 6 X (16M + 64BIT) 也就是1组SA直接连接1片MCD 16m缓存+64BIT显存,共6个SA。虽然看上去是 96M无限缓存,但实际上跨SA调用数据需要绕一圈才能访问到,参考 2990WX这个U的跨die访问内存模式,实际上带宽瓶颈很大。
而且因为要走PCB,所以MCD即使频率能提高,但因为PCB会限制数据传输瓶颈,参考ZEN的FCLK一直在2000出头,也就是说MCD的无限缓存超过2G后再提升就没有什么用了。
所以 RDNA3的 带宽会有很严重的瓶颈。
所以,RDNA3在 低频上比RDNA2同 CU高 15%的性能,而在高频下 提升几乎为0。
也就是说,RDNA3比预想的情况低15%的性能,而且在高频下因为要频繁访问6个IO,浪费在IO上的功耗巨大,导致频率很难提升,实际7900XTX号称能跑3G,但实际大部分时间也就跑 2.5G出头。
而RDNA4使用的是和RNDA2那样2片32M无限缓存+128BIT显存,
这样
1、大幅度提升带宽。
2、IO数量降低,使得不会因为频繁跨die访问数据使得IO功耗大幅度降低。
3、IO不浪费太多功耗,使得CU单元分到更多的功耗提升频率。
参考 ZEN2到 ZEN3 吧缓存合并,大致能提升10%的性能。
所以 RDNA4 通过把RDNA3的带宽问题解决,就能提升 15%的提升,而吧单SA 16M缓存+64BIT改成共享32M+128BIT显存 又能提升 10%,所以在缓存上 RNDA4就能比 RDNA3 提升 25%的性能。
而改了IO后,IO功耗下降,使得频率得到了提升。从 2.5G-2.6G到2.8G-2.9G又 大致能提升10%的性能。
也就是说即使CU没提升 RDNA4 大致单CU能 提升 1.25X1.1=1.375。也就是 37.5%的提升
64CU X 1.375=88cu RDNA3的水平。
参考现在的消息,很符合 9070XT 略强于 84CU的 7900XT,但不如 96CU的7900XTX的水平。
从这点计算基本得出, RDNA4 的 CU单元几乎没提示,光解决 RDNA3的带宽问题就能有这样的提升。
也可以看出 RNDA3 翻车有多严重。