做个比喻。RDNA3的显存,就是6个人(6组SA)分别是 A B C D E F,每人有16万现货(16M无限缓存)和 64万存货(64BIT位宽),总体相当于 6个人 【共有】 96万现货(6X16=96m缓存),384万存货(384BIT位宽)。6个人亲密无间,他们相互配合来完成每一帧。RDNA3 到仓库中需要走一条没有修缮的 100米的 路(走PCB)。
他们怎么完成一帧的呢?
A需要数据,自己跑100米没有修缮的路拿到数据,发现数据在其他家,A于是去问B要数据,B再通过100米没有修缮的路拿数据给A。A再去C要数据,C再通过100米没有修缮的路拿数据给A。A再去D要数据,D再通过100米没有修缮的路拿数据给A。A再去E要数据,E再通过100米没有修缮的路拿数据给A。A再去F要数据,F再通过100米没有修缮的路拿数据给A。
B需要数据,自己跑100米没有修缮的路拿到数据,发现数据在其他家,B于是去问A要数据,A再通过100米没有修缮的路拿数据给B。B再去C要数据,C再通过100米没有修缮的路拿数据给B。B再去D要数据,D再通过100米没有修缮的路拿数据给B。B再去E要数据,E再通过100米没有修缮的路拿数据给B。B再去F要数据,F再通过100米没有修缮的路拿数据给B。
C需要数据。。。。。。。
D需要数据。。。。。。。
E需要数据。。。。。。。
F需要数据。。。。。。。(都是重复)
他们终于拿到了所有数据于是 就弄出了 【一帧】。
每一帧, A B C D E F 一共访问 仓库 6 X 6=36次(6个仓管(IO)估计都冒烟了,不但繁琐而且还消耗大量的电力)中途 走了 36 X 100= 3600米的路(没修缮)。
而RDNA4呢? 对上面做了亿些改进。
1、单芯片设计,所以不用走PCB,相当于吧之前100米没有修缮的路改成了30米修过的路节约了走路的时间。
2、把4个人的个人仓库合并成2个大仓库。
于是 他们完成一帧的过程是。
A需要数据,自己跑30米修过的路在AB合并仓库拿到数据,发现数据在其他家,A于是去问CD仓库仓管IO要数据,CD仓管跑30米吧数据给A。
B需要数据,自己跑30米修过的路在AB合并仓库拿到数据,发现数据在其他家,B于是去问CD仓库仓管IO要数据,CD仓管跑30米吧数据给B。
C需要数据。。。。。。。。。。。
D需要数据。。。。。。。。。。。
于是他们完成了【一帧】。
每一帧,A B C D一共访问了 2 X 4= 8次。中途走了 8 X 30=240米修缮过的路。
虽然 4个人渲染一帧需要的时间比 6个人渲染时间长,但从浪费在找数据的路上找补回来了。
RDNA3 看上去带宽很大,但时间上带宽是严重不足的,因为带宽浪费在相互找数据的路上。
反观 RDNA4,带宽就充足许多。而且 因为改进后,IO(仓管员)工作量下降,这样就能少消耗电力,把电力能分在渲染的那些人身上,最终频率提升了。
他们怎么完成一帧的呢?
A需要数据,自己跑100米没有修缮的路拿到数据,发现数据在其他家,A于是去问B要数据,B再通过100米没有修缮的路拿数据给A。A再去C要数据,C再通过100米没有修缮的路拿数据给A。A再去D要数据,D再通过100米没有修缮的路拿数据给A。A再去E要数据,E再通过100米没有修缮的路拿数据给A。A再去F要数据,F再通过100米没有修缮的路拿数据给A。
B需要数据,自己跑100米没有修缮的路拿到数据,发现数据在其他家,B于是去问A要数据,A再通过100米没有修缮的路拿数据给B。B再去C要数据,C再通过100米没有修缮的路拿数据给B。B再去D要数据,D再通过100米没有修缮的路拿数据给B。B再去E要数据,E再通过100米没有修缮的路拿数据给B。B再去F要数据,F再通过100米没有修缮的路拿数据给B。
C需要数据。。。。。。。
D需要数据。。。。。。。
E需要数据。。。。。。。
F需要数据。。。。。。。(都是重复)
他们终于拿到了所有数据于是 就弄出了 【一帧】。
每一帧, A B C D E F 一共访问 仓库 6 X 6=36次(6个仓管(IO)估计都冒烟了,不但繁琐而且还消耗大量的电力)中途 走了 36 X 100= 3600米的路(没修缮)。
而RDNA4呢? 对上面做了亿些改进。
1、单芯片设计,所以不用走PCB,相当于吧之前100米没有修缮的路改成了30米修过的路节约了走路的时间。
2、把4个人的个人仓库合并成2个大仓库。
于是 他们完成一帧的过程是。
A需要数据,自己跑30米修过的路在AB合并仓库拿到数据,发现数据在其他家,A于是去问CD仓库仓管IO要数据,CD仓管跑30米吧数据给A。
B需要数据,自己跑30米修过的路在AB合并仓库拿到数据,发现数据在其他家,B于是去问CD仓库仓管IO要数据,CD仓管跑30米吧数据给B。
C需要数据。。。。。。。。。。。
D需要数据。。。。。。。。。。。
于是他们完成了【一帧】。
每一帧,A B C D一共访问了 2 X 4= 8次。中途走了 8 X 30=240米修缮过的路。
虽然 4个人渲染一帧需要的时间比 6个人渲染时间长,但从浪费在找数据的路上找补回来了。
RDNA3 看上去带宽很大,但时间上带宽是严重不足的,因为带宽浪费在相互找数据的路上。
反观 RDNA4,带宽就充足许多。而且 因为改进后,IO(仓管员)工作量下降,这样就能少消耗电力,把电力能分在渲染的那些人身上,最终频率提升了。