网页资讯视频图片知道文库贴吧地图采购
进入贴吧全吧搜索

 
 
 
日一二三四五六
       
       
       
       
       
       

签到排名:今日本吧第个签到,

本吧因你更精彩,明天继续来努力!

本吧签到人数:0

一键签到
成为超级会员,使用一键签到
一键签到
本月漏签0次!
0
成为超级会员,赠送8张补签卡
如何使用?
点击日历上漏签日期,即可进行补签。
连续签到:天  累计签到:天
0
超级会员单次开通12个月以上,赠送连续签到卡3张
使用连续签到卡
07月31日漏签0天
ati吧 关注:52,063贴子:640,762
  • 看贴

  • 图片

  • 吧主推荐

  • 视频

  • 游戏

  • 11回复贴,共1页
<<返回ati吧
>0< 加载中...

想想还是发一个 4090丐中丐测试

  • 只看楼主
  • 收藏

  • 回复
  • 求秒帝
  • 小吧主
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
卡是PNY最便宜那款。
7950X3D
DDR5 6400 * 2
分辨率
3440*1440


  • 求秒帝
  • 小吧主
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


2025-07-31 23:05:10
广告
不感兴趣
开通SVIP免广告
  • 求秒帝
  • 小吧主
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
顺便研究了一下,4090为啥效率衰减比较大:

这个表列出的是Culling之后的多边形吞吐率,Culling掉的多边形可以不消耗光栅器来处理,所以每周期的吞吐率可以超过GPC数量。
从图中可以看到从4070TI到2080,都和SM数量正相关。
但是4090显然被别的地方限制住了,吞吐率仅仅和4070TI相当。
用nSight Graphic观察了一下,它在流水线最前端的图元分配器上被卡住了,也就是在Input Assembly这里被限制住了,由于这个地方算是最前端了,
所以后面阶段硬件自带的Culling无论如何都不可能让吞吐率超过这个限制。
而新一点的游戏中普遍开始使用GPU Driven流水线,利用Compute Shader来进行的Culling,
因为在Input Assembly之前就Culling好并且Input Assembly接受到的也是Culling后的图元数量,可以避开这个限制。
更进一步的Mesh Shader直接没有了Input Assembly阶段,也就更不存在限制的可能了。


从3DMark的Mesh Shader测试可以看出来,4090在这种多边形吞吐率主导的测试中,非Mesh Shader下性能与4070TI类似,但依靠Mesh Shader可以获得三倍多非Mesh Shader时的性能,远高于4070TI的成绩。


  • Fischer
  • x850xt
    11
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼


  • nEcsA
  • 吧主
    15
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
秒爷以后显卡测得多了,自然形成个a吧天梯图


  • polly_24
  • Vega
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
4090是不是两种显存混用的?
有见过+800都不行的,也有能+2000以上的


  • 龍星雙月
  • Vega
    1
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
感覺4090目前前端限制挺大的 另外就算mesh shader 還是沒解決gpc並行效率的問題 越多還是會衰退
另外有沒有可能下一代L2(含)以下的帶寬進行改進?
目前從低階來看profile帶寬感覺都不充足 無法很好利用fp32/fill rate 堆那麼多SM/CU毫無意義 只能給RT用
參考下4060到4060ti 增加約40%多的規模 實際表現水準僅提升20% 甚至不到(雖然都是3GPC也可能造成瓶頸)
除了overdraw情形嚴重外根本不需要這麼多 曾發現有單純2D的情形下overdraw 堪比款3A級3D的開銷....
尤其多邊形越多 低等級帶寬瓶頸的情況就越嚴重 而且又難以靠L0 L1之類改進優化 目前個人觀察上多邊形逐年是在上升的 為了更加精緻的效果和光源陰影等影響造成(撇開過度誇張的實時反射)
移動端上的思路是想辦法改造管線引入些技術優化大量多邊形造成的帶寬壓力
目前個人觀察到的壓力就來自於這兩點 而且這兩點改進起來要花費的成本也高昂很多


  • CGBull
  • 9700pro
    13
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
感觉传统图形管线性能确实瓶劲了,以后得大力发展计算图形管线。最近优化了下项目的网格性能,传统管线VAF已经起飞了,完全堵死后面的计算单元。然后尝试换成手动在VS里Load structured buffer来做数据fetch,性能飙升,上限变成了被缓存与带宽限制了。


登录百度账号

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频!
  • 贴吧页面意见反馈
  • 违规贴吧举报反馈通道
  • 贴吧违规信息处理公示
  • 11回复贴,共1页
<<返回ati吧
分享到:
©2025 Baidu贴吧协议|隐私政策|吧主制度|意见反馈|网络谣言警示