本周5老黄应该会公布全部PPT了,到时候图灵架构是骡子是马,都应该有个真相大白的解释了。
所以在总结一下图灵架构的一些特性,稍微回顾一下NVIDIA过去历史都改进了什么东西。
从历史角度看,NVIDIA从提出来CUDA这个概念开始,就一直强调所谓的【通用计算能力】。而NVIDIA架构中通用计算能力,通常表现在独立的FP32和独立的FP32不同CUDA单元上面,所以这就一直以来引发了一个问题。【多余CUDA FP64并无收益,所以在游戏里面无法换来等比例的性能。可以视为对玩家来说无用的单元,也因此一直引发了高发热量以及TDP的问题】
这些所有的问题,一直到开普勒架构中真的得到了彻底解决,实际上开普勒架构只是根据GPC调整,采用了不同设计。GK104和GK110就是典型同一个架构内,GPC不一样。SM也不一样。FP32和FP64的比例也不一样。再加上开普勒架构中进一步强调逻辑控制单元,每个SM加入额外逻辑控制单元,彻底缓解了曾经依赖CPU的一些问题。可以说是进一步一高效率的核心点。除了这点,开普勒架构中首次提出来了GPU boost动态加速频率。
还有一个更为重要的东西,那就是统一【shader频率】 所谓统一着色器频率,就是费米和开普勒最大的变化,曾经的GPU是有一个叫shader着色频率的东西,但开普勒架构之后,统一为CUDA频率。所以开普勒架构的【SM内部192个CUDA数量巨大提高,可以视为是同一频率。而费米架构的SM内部只有很少的CUDA。并不适用于28nm工艺,但实际上更适用于40nm 65nm时代的工艺。因为由于shader频率可以调高,费米架构的TDP虽然并不好看,但在不依赖SM规模和CUDA数量的时代,缺乏工艺的时候是可以获得巨大的性能提高和计算能力突出。这也就就是NV为什么能牺牲TDP吧通算市场在自己40nm-65nm时候就已经铺设完毕了。虽然付出来足够代价,但却是换来了市场和生态圈对比AMD的提早一步侵占,也算是老黄最大的战略铺垫。】
所以我们不难看出来,开普勒对比费米架构的在2012年变化是非常巨大的。至少从架构上面来看,两者根本是完全性质的改变,不仅仅是体现在40nm和28nm工艺的晶体管方面。开普勒的每瓦性能就是一个最大的突出点。
但随着换来的弱点就是【开普勒虽然飞跃和进化很大,但由于步子迈开太多,导致出现了不少弱点】诸如【L2 Cache提高很少,以及开普勒架构致命的单精度FP32命中率问题。所以开普勒的的FP32可以说是虚高,但缺乏效率。别看CUDA数量比费米多了很多,但命中率的问题。马上体现在了高FP32。却低跑分的问题上。】
实际换来的图形性能,对不起自己的FP32计算能力提高。
开普勒架构暴露的弱点【充分印证了一个道理,那就是堆FP32并不能绝对换来等比例的图形性能。哪怕强调通用计算能力,但通算能力不=shader性能】
由于这样的问题。虽然诞生了【麦克斯韦架构和帕斯卡架构这2个东西】
所以在总结一下图灵架构的一些特性,稍微回顾一下NVIDIA过去历史都改进了什么东西。
从历史角度看,NVIDIA从提出来CUDA这个概念开始,就一直强调所谓的【通用计算能力】。而NVIDIA架构中通用计算能力,通常表现在独立的FP32和独立的FP32不同CUDA单元上面,所以这就一直以来引发了一个问题。【多余CUDA FP64并无收益,所以在游戏里面无法换来等比例的性能。可以视为对玩家来说无用的单元,也因此一直引发了高发热量以及TDP的问题】
这些所有的问题,一直到开普勒架构中真的得到了彻底解决,实际上开普勒架构只是根据GPC调整,采用了不同设计。GK104和GK110就是典型同一个架构内,GPC不一样。SM也不一样。FP32和FP64的比例也不一样。再加上开普勒架构中进一步强调逻辑控制单元,每个SM加入额外逻辑控制单元,彻底缓解了曾经依赖CPU的一些问题。可以说是进一步一高效率的核心点。除了这点,开普勒架构中首次提出来了GPU boost动态加速频率。
还有一个更为重要的东西,那就是统一【shader频率】 所谓统一着色器频率,就是费米和开普勒最大的变化,曾经的GPU是有一个叫shader着色频率的东西,但开普勒架构之后,统一为CUDA频率。所以开普勒架构的【SM内部192个CUDA数量巨大提高,可以视为是同一频率。而费米架构的SM内部只有很少的CUDA。并不适用于28nm工艺,但实际上更适用于40nm 65nm时代的工艺。因为由于shader频率可以调高,费米架构的TDP虽然并不好看,但在不依赖SM规模和CUDA数量的时代,缺乏工艺的时候是可以获得巨大的性能提高和计算能力突出。这也就就是NV为什么能牺牲TDP吧通算市场在自己40nm-65nm时候就已经铺设完毕了。虽然付出来足够代价,但却是换来了市场和生态圈对比AMD的提早一步侵占,也算是老黄最大的战略铺垫。】
所以我们不难看出来,开普勒对比费米架构的在2012年变化是非常巨大的。至少从架构上面来看,两者根本是完全性质的改变,不仅仅是体现在40nm和28nm工艺的晶体管方面。开普勒的每瓦性能就是一个最大的突出点。
但随着换来的弱点就是【开普勒虽然飞跃和进化很大,但由于步子迈开太多,导致出现了不少弱点】诸如【L2 Cache提高很少,以及开普勒架构致命的单精度FP32命中率问题。所以开普勒的的FP32可以说是虚高,但缺乏效率。别看CUDA数量比费米多了很多,但命中率的问题。马上体现在了高FP32。却低跑分的问题上。】
实际换来的图形性能,对不起自己的FP32计算能力提高。
开普勒架构暴露的弱点【充分印证了一个道理,那就是堆FP32并不能绝对换来等比例的图形性能。哪怕强调通用计算能力,但通算能力不=shader性能】
由于这样的问题。虽然诞生了【麦克斯韦架构和帕斯卡架构这2个东西】
