【分析】图灵架构将会是改变传统shading过程的发起人。_nvidia吧

本周5老黄应该会公布全部PPT了，到时候图灵架构是骡子是马，都应该有个真相大白的解释了。
所以在总结一下图灵架构的一些特性，稍微回顾一下NVIDIA过去历史都改进了什么东西。
从历史角度看，NVIDIA从提出来CUDA这个概念开始，就一直强调所谓的【通用计算能力】。而NVIDIA架构中通用计算能力，通常表现在独立的FP32和独立的FP32不同CUDA单元上面，所以这就一直以来引发了一个问题。【多余CUDA FP64并无收益，所以在游戏里面无法换来等比例的性能。可以视为对玩家来说无用的单元，也因此一直引发了高发热量以及TDP的问题】
这些所有的问题，一直到开普勒架构中真的得到了彻底解决，实际上开普勒架构只是根据GPC调整，采用了不同设计。GK104和GK110就是典型同一个架构内，GPC不一样。SM也不一样。FP32和FP64的比例也不一样。再加上开普勒架构中进一步强调逻辑控制单元，每个SM加入额外逻辑控制单元，彻底缓解了曾经依赖CPU的一些问题。可以说是进一步一高效率的核心点。除了这点，开普勒架构中首次提出来了GPU boost动态加速频率。
还有一个更为重要的东西，那就是统一【shader频率】所谓统一着色器频率，就是费米和开普勒最大的变化，曾经的GPU是有一个叫shader着色频率的东西，但开普勒架构之后，统一为CUDA频率。所以开普勒架构的【SM内部192个CUDA数量巨大提高，可以视为是同一频率。而费米架构的SM内部只有很少的CUDA。并不适用于28nm工艺，但实际上更适用于40nm 65nm时代的工艺。因为由于shader频率可以调高，费米架构的TDP虽然并不好看，但在不依赖SM规模和CUDA数量的时代，缺乏工艺的时候是可以获得巨大的性能提高和计算能力突出。这也就就是NV为什么能牺牲TDP吧通算市场在自己40nm-65nm时候就已经铺设完毕了。虽然付出来足够代价，但却是换来了市场和生态圈对比AMD的提早一步侵占，也算是老黄最大的战略铺垫。】
所以我们不难看出来，开普勒对比费米架构的在2012年变化是非常巨大的。至少从架构上面来看，两者根本是完全性质的改变，不仅仅是体现在40nm和28nm工艺的晶体管方面。开普勒的每瓦性能就是一个最大的突出点。
但随着换来的弱点就是【开普勒虽然飞跃和进化很大，但由于步子迈开太多，导致出现了不少弱点】诸如【L2 Cache提高很少，以及开普勒架构致命的单精度FP32命中率问题。所以开普勒的的FP32可以说是虚高，但缺乏效率。别看CUDA数量比费米多了很多，但命中率的问题。马上体现在了高FP32。却低跑分的问题上。】
实际换来的图形性能，对不起自己的FP32计算能力提高。
开普勒架构暴露的弱点【充分印证了一个道理，那就是堆FP32并不能绝对换来等比例的图形性能。哪怕强调通用计算能力，但通算能力不=shader性能】
由于这样的问题。虽然诞生了【麦克斯韦架构和帕斯卡架构这2个东西】

麦克斯韦架构是一个对玩家造福很大的架构，他可以说是开普勒架构进一步改进之后进化的成品。对比开普勒架构，【麦克斯韦巨大的补全了后端部分，改进了MC层面。L2 Cache被大幅度翻倍。Rops得到了翻倍。】
如果说是后端得到了巨大提高，那么麦克斯韦的前端可以说对比开普勒是规模缩小了。你会发现，同等晶体管面积小，开普勒的CUDA比麦克斯韦更大，更多。但FP32同等情况下，【shader性能却不一样】。
这样无疑是因为麦克斯韦架构中，每个SM内部128个CUDA，分成了4组逻辑控制。这样的结构意味着对比开普勒更加细化分配。进一步提高了效率。虽然CUDA数量看起来是降低了，但由于频率也提高了。麦克斯韦架构【通过频率，换来了并不落后太多的FP32性能以及纹理填充率Tmu，甚至更大的L2 Cache以及更大的的光栅。可以说修复了开普勒一切弱点，但继承了开普勒的优势】
麦克斯韦对比开普勒也有弱点，但她很巧妙的通过频率和逻辑控制改进，糊弄过去了。碾压了自己TMU的数量问题。掩盖了自己的问题后，麦克斯韦虽然FP32确实提高很小，但28nm没有改变情况下，确实得到了一个非常突出的性能提高。
随后我们看到的所谓帕斯卡架构。只是麦克斯韦的改进。但帕斯卡架构仍旧有一定程度效率提高，至少16nm大幅度改进了晶体管效率，所以帕斯卡虽然规模更小的核心也拥有一个你难以预料的频率提高。GTX1060只用了4.4TFP32就换来了仅次于GM204 5.0T的性能。实际上还是有所提高的，但只是幅度很小。
帕斯卡架构突出的FP32【是被广大媒体以及玩家吹嘘的关键点，因为在职之前，AMD一直都是FP32远高于NV的。】
但帕斯卡之后，AMD的FP32并没有突出优势了，GP104的9T FP32让Fury X缺乏优势。甚至Vega本身12T的FP32，并不能对比GP104 9T有明显提高和领先。
再一次说明，【计算性能不=图形性能。算力只是换来shader的一个渠道。但不是唯一必须渠道。更多的改进。是架构内部的结构和几何引擎的升级，以及后端的比例】
======================================================
这是我非常突出要强调的，【架构本身的改动，比规模更重要。类似于麦克斯韦和帕斯卡这样规模巨大提高，堆料提高性能的产品。在历史上是不少见的，但开普勒和麦克斯韦那样不堆料，仅仅是通过改进结构换来的提高。历史上也有很多例子。】
所以【提高图形性能的方式，从来就不是根据工艺和晶体管，从来就不是根据算力以及规格，至少这不是绝对唯一的渠道和办法。】

=======================================
以上我们回顾了一下最近2011-2016年的历史，不难看出来，NVIDAI一直在做一件很重要的事情。
他们一边强调【通用计算】但反过来一边【也在淡化通用计算对shader性能的影响】
虽然CUDA从提出来开始，就在不断强调FP32和FP64。但这仅仅是在Tesla系列产品和计算领域。
实际上，NVIDIA的GeForce和Quadro系列一直都是强调shader绘图性能。并不强调FP32。而FP32只是Quadro和GeForce的主要需求算力之一。
换而言之，FP32是必需品，但她绝对不是每一份都是绝对等比例收益。随着架构的改善，NV真的也在不断降低FP32的需求和依赖度。甚至在FP32不变或者提高很低很低的情况下，通过架构提高改进结构，让同等FP32计算能力下的shader性能巨大飞跃提高。【麦克斯韦不就是个例子么？，今天你享受到的帕斯卡架构也是同理】
所以这样无外乎是因为【NIVDIA自己的架构大师也明白：CUDA数量的优势，不是无限成长的。这就是他们为什么还在不断缩小CUDA规模，麦克斯韦对比开普勒肯定是缩减了SM内部的规模。但SM数量提高了。但麦克斯韦和开普勒最大仍旧是2880和3072个CUDA。一直到16nm，帕斯卡最多也没有超过4096个CUDA。一直到Volta猜首次超过了4096】
侧面说明，NV对CUDA数量把握非常假谨慎。CUDA并非越多越好。虽然计算能力方面，CUDA确实是越多越好。但shader性能【确实不是你无限撑算力能换来的】
所以回归理智的说法：【CUDA和频率。都是你每提高一点点就能换来绝对看得到算力收益的。就和AMD那边一样，强调算力的结果就是大家的前端疯狂提高。规模疯狂提高。TDP疯狂提高。面积疯狂提高。但shader性能和后端却没有更得上。以至于最后你不得不用HBM2来减少你的MC面积，然后进一步疯狂支持你那个几乎膨胀到无法控制的前端规模】
为什么会这样？这就是因为shader性能不随着FP32等比例提高，所以大家疯狂堆积CUDA或者SP。都只能换来【看起来很好看的算力，无非是堆CUDA和频率。这样频率和SP上去了。算力各种8-15T。看着就是很高大上】

实际上，这些计算能力都是虚假的存在。【对于图形领域的用户来说，这些算力如果不能对你换来足够的shader性能。那么他们都是虚假的存在，因为你不是搞计算的。不需求通算能力。你不是搞集群并行计算。你需要的是图形性能，你不需要那么多没用的算力，那些算力并不能给你换来GPU图形性能。那些都是一个虚假的指标。都是给计算需求的企业组织使用的，对玩家和图形开发者没什么卵用】
=======================================================================
因此，NVIDIA提出来了另外一个东西，【通算时代之后，首次提出来AI推演矩阵计算模式】所谓的Tensor Core在Volta架构首次出现了。Tensor可以说是Volta之核心，虽然Volta架构在GP100就已经从SM内部体现出来高密度的集群特性。每个GPC内部足足10个SM。规模对比帕斯卡更细化了。
但是很遗憾的是GP100没有被挂上【Volta的名字，可以说老黄根本不把她当做Volta。她没资格】
GP100没有资格做Volta。并不是因为他不是Volta架构。GP100缺乏Tensor和AI计算能力。这才是他没有成为Volta的核心原因。
侧面说明Votla里面Tensor才是大头，AI才是核心。
强调AI计算和综合通算结合一体的Volta产品。拥有GV100那样全球最大规模计算产品。支持几乎FP32 FP64 FP16 INT8 Tensor多种计算形势，通算和AI一起算。什么都能算。什么都能有很好看的理论能力。
所以GV100成为了一个昂贵的产品。因为他是几乎无法被代替的，因为没人可以提供他那么强大的算力，也没有人比他更全能。他还是个通算处理器。专业计算处理器无法与之匹敌和合理竞争力。
可以说Volta是【通用计算的巅峰，AI计算的发起人，但他绝对不是AI计算的巅峰人物，他只是个菜鸟】
既然NV已经提出来了通用计算，有从AI推演计算算法中得到了起步发展。Volta这样强调AI计算的产品。首次在业界得到了演示，演示了NV如何通过AI计算，推理像素值各种演示。都是NV的野心所在。 Volta进一步暴露了NV从通算转型AI计算的野心。控制计算市场，进一步研发更多算法的【算法狂魔NVIDIA的野心继续膨胀】
=======================================================================
如果说Volta强调了计算性能和AI性能，一边提出来了通算能力的强大，另外一边还在提出AI计算的Tensor。看起来似乎是合理的成为目前的计算能力最强的综合计算全能里处理器。
但是很遗憾的是【Volta不是一个图形性能很突出的架构，而且他从头到尾就是没有说自己的shader有什么改进。很显然，渲染能力和像素能力。这个架构根本PPT里面就没有做什么提及，完全都在吹嘘算力】
甚至你看到的Ttian V都是阉割了1024bit和32Rops。导致只有3072bit 96Rops 12GB这样的可怜后端，就算如此。GV100那5120+2560 总计7680个CUDA的愚蠢前端规模。Ttian V为了保证自己完美计算能力。是不会阉割前端的，因为砍了前端=降低计算能力。缺乏竞争力了。砍后端会损失图形性能，但不会缺乏理论计算能力。
侧面说明，从一开始也许NV就没打算用Volta玩游戏，从路线图里来看，Volta是一个计算能力发展的巅峰产品。他的规模应该是最大的，但她并没有通过自己的强大的FP32性能。换来合理的shader提高。
虽然我们不知道完整GV100的具体图形性能，但5120个CUDA拥有15T FP32的Titan V即使拥有完整后端128Rops 4096bit。对比GP102可能真的也只有150%的提高。并没有7成提高。
虽然Volta的FP32和CUDA规模膨胀到了一个【几乎看起来很美的地步，可以推演到Volta如果有GV104和GV102，那么CUDA数量不是3584就是5376那么看起来很美的数字。但他的图形性能，确实并不突出。甚至可以说，CUDA很多。但图形性能并不强。或许CUDA数量已经贴近于极限，没有7nm工艺的支持。Volta对比帕斯卡必须靠晶体管和面积来硬撑CUDA规模换来足够的FP32算力来硬撑Shader性能。这对于目前没有7nm 只有12nm FFN的NVIDIA会非常不利，因为没有7nm Volta并不能用一个很小的核心面积换来一个很好看的CUDA规模。所以NV放弃了Volta】

=======================================================================
这所有的一切，都在为一个最终目标做铺垫。如果说Volta开启了AI计算的道路。又创造了通算的巅峰。那么这个世界传统的shader通过FP32算力获取的思路，将会在2018年彻底改变。
所以2018年诞生了另外一个叫图灵架构的新概念，这个架构原本是不会出现在NV过去的PPT路线图上面的，它的存在可以说是一个例外，如同帕斯卡一样。【但帕斯卡只是个拖延时间的工艺马甲】而图灵应该是对原本路线图的修改，面向全新的领域。
图灵架构对比Volta架构，最大的改进在于【Volta架构仅仅是提出了Tesnor计算的AI算法发起者，但Volta只是具备了很多种全能计算方式集成一体化，他的支持的算法很多。规模很大，算力很强。这就是Volta的一切了。而图灵架构则是把AI计算和图形计算混合计算，形成了全新一种获取shader性能途径。】可以说，图灵架构是一个三次元的东西，他颠覆了过去10年内GPU架构的全部定位，重新定义了图形领域。因为他并不仅仅通过通算能力获取shader。他的像素和着色能力。是通过【通用计算性能+Tensor推演一起完成。这就是所谓图灵AI计算补全shading计算周期】
通俗易懂的解释：图灵架构里面的CUDA和Tensor是可以协同工作一同渲染或者补全完成帧数生成的过程。【即使是不依赖某些DLSS和RTX算法，普通的shading过程仍旧是CUDA和Tensor一同完成，而不是完全CUDA自己完成。所以这个变革将会是革命性的，相当于不再完全通过SP获得性能。而是通过CUDA+Tensor完成。传统i行32换来的图形性能的途径，将会在图灵架构中完全颠覆。】
图灵架构中，虽然每个SM看起来和Volta结构相似，仅仅是每个SM多了一个RT Core用于RTX求交计算。虽然这个看起来如同ASIC的东西并不能提高普通shader性能。但在整个图灵架构中，首次出现了ASIC和传统通算单元完全出现在一个GPU内部的奇怪设计，这样的思路完全是个奇葩。因为世界上几乎没人会把Tensor单元和ALU做到一个框架内。而且跟不会有多少人想到把FP32单元和ASIC做到一个团簇内。这绝对是通算和专算单元混用。这在整个半导体架构设计里面，都是几乎没有出现过的事情。
所以图灵架构的这部分设计，只有真正懂架构的人，真正能看明白历史的人。【你猜会明白这个玩意并不会是看上去的那么简单。因为他完全是颠覆了过去所有人20-30年的研究和努力提出来的东西。而是换了个思路去把别人相同的事情，用更简单更**的思路做出来了。所以他可能只需要很少的算力，很少的CUDA数量。就能实现过去架构做不到的最终图形性能。这是非常可怕的】
如果用一个通俗易懂的方式来形容：那就是借助AI推演计算这个【外骨骼】，如果让你解决一个【无法移动的重物】。那么其中一种方式是【去健身房锻炼到自己的肌肉密度能够搬起巨石，那样会吃掉大量蛋白质，产生巨大热量。而且提高的时间和代价都很大，收益也有极限】【而使用外骨骼借助外力增大，自己的力量仅仅是其中引导方向】
这就是图灵架构的思路~ 【原本这就不是一个单纯堆积运算核心数量的架构，她靠的是复合运算技巧特殊的算法和结构组成的全新框架。老一代架构算法落后，就算再怎么提高计算单元的量，也不会引发质变。所以架构每几年都要更新】
图灵架构【应该是一个淡化了计算能力。或者计算能力并不怎么突出，至少看上去对比以前提高很小的算力，但却换来了巨大的图形性能的一种“专业级别图形架构，而不是计算架构”。所以图灵是针对图形领域的，而不是计算领域。所以图灵不能担任某些高端计算需求。他还不能代替Volta。因为它不支持FP64，他的算法主要是用于图形的】
根据我目前了解【图灵架构似乎也有Tesla系列产品，但主要用于Tensor面向深度学习用户。不面向高端计算需求，高端计算需求仍旧是GV100。或者下一代新架构】
图灵架构之所以被很多媒体以及【很多自认为是专家的家伙】认定是：性能提高很小，其实都是普遍通过FP32性能判断的，大家一看CUDA提高不大，自认为常规性能提高很小。自认为图灵架构新加入的晶体管和RTS单元只能做RTX计算和DLSS。否则就提高很小。老游戏提高很小。
这样的认知是【完全根本搞不明白架构胡说八道】。虽然这个判断思路是没错误的，【但那样也仅仅是2012-2017年的思路可以】
今天是【2018年图灵架构以后已经是AI和图形混合计算了，这样的思路已经过时了。不能完全通过FP32推理性能，更不能通过带宽和显存容量。以及频率瞎猜性能提高很小，甚至还有人通过CUDA计算性能，这都是非常不靠谱的思路】
实现一个最终渲染的过程是无数个渠道的，但暴力堆积单元和算力【也是其中一个渠道，尤其是大家尚未发现更好的算法时候。那么暴力堆规格使我们依赖工艺的唯一渠道。这也就是为什么AMD每一次都要强调工艺的价值，因为AMD缺乏算法的改进，他们只能从晶体管和半导体下功夫】
或许你也看到AMD的架构里面，【前后端比例似乎失调，这也是因为AMD缺乏一个略对逻辑的框架约束。所以他们的产品开发难度高，成本高，周期更长。但可定制化更加自由。所以AMD的MC和Rops也不绑定，前端后端比例可以根据需求调整。这样的产品最终做出来，很可能会出现FP32性能过剩虚高，但图形性能很低很低，看起来是GCN强调了计算能力，但实际上GCN根本没有全能通用计算能力。图形性能也是根本瘸腿。一分算力换不来图形性能】
也就是因为如此，AMD才会依赖7nm。因为7nm能给他们更多晶体管，更多面积。更多SP。这样似乎是他们解决【单精度数量不足的唯一办法，最终AMD已经无法提高自己的规模了，只能靠HBM来缩减MC的面积，继续给他们虚高的CU单元规模腾出空间，以便放下更多更庞大更愚蠢的前端规模。】
而NV既然选了12nm，那么就不是通过堆积面积和规模获得性能，而图灵架构的晶体管和面积更是史无前例，连TU104似乎都做到了几乎GK110的面积和接近GP100的晶体管数量。这样的规模【怎么可能反而比GP102更弱呢？或者仅仅强一点点呢？难道多余的计算单元都是无用，只能RTX？这样的话，这种架构根本不可能被股东和议会认同的。老黄这样的方案，会被骂死】
=======================================================================

=============================================================
所以图灵架构中，多余的晶体管和计算单元，不管是用于AI还是用于shader都是有价值的。而且图灵架构也是首个AI推理参与Shading计算的架构。这样的算法，就注定它常规渲染中【也一样加入了AI补全的算法。如此才能做到平均每个CUDA提高了50%性能。那是因为额外的Tensor提高了他的性能。】
最终总结：
1、图灵架构将会是历史上第一个颠覆传统渲染shading过程，把AI融入图形计算的飞跃性质产品
2、图灵架构根本不依赖CUDA和FP32算力，获取常规shader性能。以及RTX性能。这些根本不需要虚高的FP32和无用的CUDA数量
3、图灵架构可能不想太依赖带宽，他的L2本身翻倍。他的AI矩阵推演补全的功能。并不需要吃掉更多带宽和显存容量。他的工作原理，确保他用更加先进机制和算法。绕过了传统shading保存和读取的过程。这样自然是不会依赖带宽和显存容量了。但最终的出口规模必须很大，比如Rops必须增多。确保他的最终流程结尾的输出出口不能太小。
所以我们绝对不能通过【图灵架构的任何一个规格，判断他的性能。因为我们还不了解他。不能盲目给他做出批判。】
我还是希望发一些比较干货【而且通俗易懂的东西。而且是自己个人总结和荟萃出来的东西，而不是直接把白皮书和某些文案拿出来说一些别人看不懂的代码和专业词汇。那样的东西不会有人去看，怕是你自己也看不明白。】
真正有价值的东西，【是你自己看明白后，总结和陈述给别人的东西。这样才是宝贵的技术，而不是写在那些文案上面的死死文字。】

说一些无关的东西，9.14我们就能看到老黄怎么去介绍这个架构产生的具体变化是什么样的了
除此之外，我不认为AMD这几年可以做出和图灵架构机制一样的AI参与shading过程的架构
【如此的，我可以非常自豪的说。AMD做不出RTX。因为做出RTX。确实需要很大的肌肉。如果你没有那么多肌肉。或者没有那么多的食物让你吃出那个肌肉。那么你就只能通过外骨骼实现那种力量。靠自己的手是做不到的。还要靠技巧和外力】

可是我已经等不及入了vega56…

你就不能往往后稍稍么?非要显摆自己多能对了证明你很扯?然后喃还不是被吃瓜群众一顿嘲得姓啥子都不晓得

我完事了，你们呢

2012-2018年这6年的迭代情况。
开普勒架构：首次统一着色器频率，动态boost频率。逻辑控制。CUDA规模增大，强调SM集群性能，强调集群规模上限突破40nm瓶颈
麦克斯韦架构：逻辑控制细化，几何引擎升级。增强MC/像素性能提高。纹理性能和计算能力不变，但shader性能大幅度提高。整个CUDA规模降低了。但效率提高了。强调资源利用率
帕斯卡架构：GPC内部增加一组SM。整体工艺改进，电气性能提高。规模增大。每瓦性能进步。密度提高。整体面积缩小了
Votla架构：强调计算能力架构，新加入了Tensor和IN8等计算，强调FP64计算。强调整体每一种计算能力。但不强调图形性能。拥有最高的计算全能支持和算力。
图灵架构：AI计算和CUDA共同参与shading过程。降低对CUDA单元计算能力依赖度，降低对数量依赖度。降低对带宽以及显存容量依赖度。整体核心规模提高，上限性能突破。每瓦性能改进很小，强调图形性能和性能上限的架构。不强调计算能力。

好像很专业，我是一点也没看懂，但是增加了信仰值

2080ti超1080ti 60%我就肯定入了，不然对不起这价格和时间。低于60%就考虑入70和80

又度过了一天

日	一	二	三	四	五	六

【分析】图灵架构将会是改变传统shading过程的发起人。

扫二维码下载贴吧客户端