想想还是发一个 4090丐中丐测试

卡是PNY最便宜那款。
7950X3D
DDR5 6400 * 2
分辨率
3440*1440

不感兴趣

开通SVIP免广告

顺便研究了一下，4090为啥效率衰减比较大：

这个表列出的是Culling之后的多边形吞吐率，Culling掉的多边形可以不消耗光栅器来处理，所以每周期的吞吐率可以超过GPC数量。
从图中可以看到从4070TI到2080，都和SM数量正相关。
但是4090显然被别的地方限制住了，吞吐率仅仅和4070TI相当。
用nSight Graphic观察了一下，它在流水线最前端的图元分配器上被卡住了，也就是在Input Assembly这里被限制住了，由于这个地方算是最前端了，
所以后面阶段硬件自带的Culling无论如何都不可能让吞吐率超过这个限制。
而新一点的游戏中普遍开始使用GPU Driven流水线，利用Compute Shader来进行的Culling，
因为在Input Assembly之前就Culling好并且Input Assembly接受到的也是Culling后的图元数量，可以避开这个限制。
更进一步的Mesh Shader直接没有了Input Assembly阶段，也就更不存在限制的可能了。

从3DMark的Mesh Shader测试可以看出来，4090在这种多边形吞吐率主导的测试中，非Mesh Shader下性能与4070TI类似，但依靠Mesh Shader可以获得三倍多非Mesh Shader时的性能，远高于4070TI的成绩。

秒爷以后显卡测得多了，自然形成个a吧天梯图

4090是不是两种显存混用的？
有见过+800都不行的，也有能+2000以上的

感覺4090目前前端限制挺大的另外就算mesh shader 還是沒解決gpc並行效率的問題越多還是會衰退
另外有沒有可能下一代L2(含)以下的帶寬進行改進?
目前從低階來看profile帶寬感覺都不充足無法很好利用fp32/fill rate 堆那麼多SM/CU毫無意義只能給RT用
參考下4060到4060ti 增加約40%多的規模實際表現水準僅提升20% 甚至不到(雖然都是3GPC也可能造成瓶頸)
除了overdraw情形嚴重外根本不需要這麼多曾發現有單純2D的情形下overdraw 堪比款3A級3D的開銷....
尤其多邊形越多低等級帶寬瓶頸的情況就越嚴重而且又難以靠L0 L1之類改進優化目前個人觀察上多邊形逐年是在上升的為了更加精緻的效果和光源陰影等影響造成(撇開過度誇張的實時反射)
移動端上的思路是想辦法改造管線引入些技術優化大量多邊形造成的帶寬壓力
目前個人觀察到的壓力就來自於這兩點而且這兩點改進起來要花費的成本也高昂很多

感觉传统图形管线性能确实瓶劲了，以后得大力发展计算图形管线。最近优化了下项目的网格性能，传统管线VAF已经起飞了，完全堵死后面的计算单元。然后尝试换成手动在VS里Load structured buffer来做数据fetch，性能飙升，上限变成了被缓存与带宽限制了。

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

11回复贴，共1页

<<返回ati吧

分享到:

日	一	二	三	四	五	六