amd吧 关注:790,132贴子:18,147,354
  • 49回复贴,共1

显存带宽不能只看数据。

只看楼主收藏回复

做个比喻。RDNA3的显存,就是6个人(6组SA)分别是 A B C D E F,每人有16万现货(16M无限缓存)和 64万存货(64BIT位宽),总体相当于 6个人 【共有】 96万现货(6X16=96m缓存),384万存货(384BIT位宽)。6个人亲密无间,他们相互配合来完成每一帧。RDNA3 到仓库中需要走一条没有修缮的 100米的 路(走PCB)。
他们怎么完成一帧的呢?
A需要数据,自己跑100米没有修缮的路拿到数据,发现数据在其他家,A于是去问B要数据,B再通过100米没有修缮的路拿数据给A。A再去C要数据,C再通过100米没有修缮的路拿数据给A。A再去D要数据,D再通过100米没有修缮的路拿数据给A。A再去E要数据,E再通过100米没有修缮的路拿数据给A。A再去F要数据,F再通过100米没有修缮的路拿数据给A。
B需要数据,自己跑100米没有修缮的路拿到数据,发现数据在其他家,B于是去问A要数据,A再通过100米没有修缮的路拿数据给B。B再去C要数据,C再通过100米没有修缮的路拿数据给B。B再去D要数据,D再通过100米没有修缮的路拿数据给B。B再去E要数据,E再通过100米没有修缮的路拿数据给B。B再去F要数据,F再通过100米没有修缮的路拿数据给B。
C需要数据。。。。。。。
D需要数据。。。。。。。
E需要数据。。。。。。。
F需要数据。。。。。。。(都是重复)
他们终于拿到了所有数据于是 就弄出了 【一帧】。
每一帧, A B C D E F 一共访问 仓库 6 X 6=36次(6个仓管(IO)估计都冒烟了,不但繁琐而且还消耗大量的电力)中途 走了 36 X 100= 3600米的路(没修缮)。
而RDNA4呢? 对上面做了亿些改进。
1、单芯片设计,所以不用走PCB,相当于吧之前100米没有修缮的路改成了30米修过的路节约了走路的时间。
2、把4个人的个人仓库合并成2个大仓库。
于是 他们完成一帧的过程是。
A需要数据,自己跑30米修过的路在AB合并仓库拿到数据,发现数据在其他家,A于是去问CD仓库仓管IO要数据,CD仓管跑30米吧数据给A。
B需要数据,自己跑30米修过的路在AB合并仓库拿到数据,发现数据在其他家,B于是去问CD仓库仓管IO要数据,CD仓管跑30米吧数据给B。
C需要数据。。。。。。。。。。。
D需要数据。。。。。。。。。。。
于是他们完成了【一帧】。
每一帧,A B C D一共访问了 2 X 4= 8次。中途走了 8 X 30=240米修缮过的路。
虽然 4个人渲染一帧需要的时间比 6个人渲染时间长,但从浪费在找数据的路上找补回来了。
RDNA3 看上去带宽很大,但时间上带宽是严重不足的,因为带宽浪费在相互找数据的路上。
反观 RDNA4,带宽就充足许多。而且 因为改进后,IO(仓管员)工作量下降,这样就能少消耗电力,把电力能分在渲染的那些人身上,最终频率提升了。


IP属地:广西本楼含有高级字体1楼2025-03-06 10:39回复


    IP属地:广西2楼2025-03-06 10:46
    收起回复
      看到这个小白 还信誓旦旦在叫唤,想想都想笑。


      IP属地:广西3楼2025-03-06 11:25
      收起回复
        战斗!


        IP属地:浙江来自iPhone客户端4楼2025-03-06 11:30
        收起回复
          RDNA3设计废了,主要是io拆的太碎,完全可以6个MCD合成一颗,就384bit 96m,核心,io, 1+1布置,一颗40mm2,6颗也就240mm2,和6600的核心差不多大小,后期布线和封装简单太多了,耍杂技的后果就是大翻车


          IP属地:浙江5楼2025-03-06 11:44
          收起回复
            镭7:man!


            IP属地:广东来自Android客户端6楼2025-03-06 11:53
            收起回复
              7900XTX要是还是带宽不足,那得上GDDR7了


              IP属地:江苏来自Android客户端7楼2025-03-06 21:59
              收起回复