MCPLive > 杂志文章 > NVIDIA Maxwell发布前夜猜想

NVIDIA Maxwell发布前夜猜想

2014-03-31张平《微型计算机》2014年2月下

问题三:Maxwell现在曝光的产品什么样?

根据目前曝光的产品参数来看,GM107拥有960个流处理单元,频率大约在1GHz左右,搭配128bit GDDR5显存颗粒,被称作GeForce GTX 750 Ti。另一款GeForce GTX 750的信息参数不是很明确,流处理器数量可能是768个,但是也有消息说是384个。考虑一下目前GK107的GTX 650的规格,GTX 750的流处理器数量不太可能是384个,768个更有可能一些。而384个流处理器的GM107则很可能是接替更为低端的诸如GT 630这样的产品的。

除了规格曝光外,还有一些信息是有关Maxwell的性能的。曝光消息指出,GTX 750Ti的性能要略弱于GTX 650Ti Boost,但是胜出GTX 650Ti,和AMD的R7 260X性能相当。综合规格和性能来看,960个流处理单元的GTX 750Ti性能甚至要比768个流处理器的GTX 650Ti Boost性能略差,可见128bit显存位宽导致的较低的显存带宽对GPU性能的制约还是相当明显的。只是目前不清楚GTX 750Ti是否原生就是128bit的,如果是的话(很大可能),那么显然这颗核心的确就是一个全新的、面向中低端市场的核心。

比较遗憾的是尚不能清楚知道GTX 750T i的核心面积。在假设Kepler和Maxwell的GPU架构没有革命性改变的情况下,可以从GK106的角度来推测:GK106的核心面积是214平方毫米,GK107的核心面积是130平方毫米,前者有3个显存控制器、5个SMX;后者有2个显存控制器、2个SMX。也就是说,1个显存控制器搭配3个SMX的核心面积大约是84平方毫米。如果GM107是2个显存控制器(对应128bit),5个SMX的话(对应960个流处理单元),再考虑各种周边辅助组件等,GM107的核心面积应该在160平方毫米左右。

当然,这只是一个计算上的推测。如果Maxwell的核心架构设计发生大幅度变化,那么这样的推测就算终结果比较接近,但还是失去了应有的意义。毕竟作为入门级产品来说,核心面积超过200平方毫米是非常令人难以接受的,好将其控制在150平方毫米以内,才能以廉价产品的身份出现在市场上。

接下来,按照NVIDIA的惯例来推测,NVIDIA随后还会推出定位从中端到高端的GM106、GM104以及GM100等产品。不过这些产品消息更为稀少,因此暂时没有办法有任何的猜测了。另外,令人感兴趣的一点是,有关GM100(或者类似定位的大芯片),是否依旧需要使用28nm来生产呢?毕竟GK110的核心面积已经达到了530平方毫米。虽然NVIDIA有超越600平方毫米的GT200的例子在前,但在28nm时代,还需要一颗如此巨大的核心吗?这个疑问,只有等到未来产品曝光才能解答了。

GM107的核心面积依旧是个谜,如果控制在150平方毫米以内的话,那就非常不错了。图为130平方毫米的GK107核心。
GM107的核心面积依旧是个谜,如果控制在150平方毫米以内的话,那就非常不错了。图为130平方毫米的GK107核心。

NVIDIA发布会上CEO黄仁勋展示的NVIDIA未来发展的路线图
NVIDIA发布会上CEO黄仁勋展示的NVIDIA未来发展的路线图

问题四:Maxwell的架构改进方向是什么?

在产品发布之前,有关Maxwell的架构消息其实非常稀少,唯一知道的就是NVIDIA官方公布的有关每瓦特双精度性能的图片了。

在这张图中,Kepler的每瓦特双精度性能大约在6的位置,Maxwell大约在10的位置,也就是说Max well的目标性能功耗比要比Kepler提升60%左右。为了达到这个目标,可以从两个角度来观察之前的GPU发展是如何做到性能提升的,然后再总结有关Maxwell的情况。首先来看工艺。GPU的性能基本上是随着晶体管数量增加而不断增加的,晶体管数量又受限于当时工艺制程的发展情况——也就是说工艺决定了GPU的性能。当然不惜成本的话,GPU可以做得很大,不过这并不是本文关注的目标。在Maxwell上,工艺这一招可能不灵了。由于前文解释的原因,20nm难堪大用,甚至恶劣的情况是Maxwell这一代都要继续使用28n m工艺,直到后期16nm工艺成熟后推出改进版本。先来看恶劣的情况——Maxwell只能使用28nm,16nm制程不够顺、利良率过低导致迟迟不能生产,这样一来NVIDIA的操作空间就很有限了。在NVIDIA手中,Maxwell大核心产品的芯片面积上限大约在600平方毫米以内,现在已经是533平方毫米了(Kepler),还有大约13%的上升空间,这显然达不到60%的目标。除了恶劣的情况外,还有一种比较好的情况,那就是NVIDIA顺利在28nm上生产了GM107、GM106、GM104后,到了2015年如果16nm FinFTE的Maxwell顺利投产的话,16nm大约能让同等芯片的线宽多缩减至28nm的一半。这样一来,一颗500平方毫米的芯片在采用16nm工艺后,芯片面积可能缩减至300平方毫米。300平方毫米的面积,上升空间就大多了,如果继续扩充芯片规模,这样60%的性能提升还是可以轻松达到的。

工艺看完了,再来看架构。相比工艺而言,由于现代GPU的架构设计已经非常成熟。诸如GeForce FX这样的大失误NVIDIA应该不会再犯,因此架构改进能带来的性能提升都是非常有限的。那么,NVIDIA Maxwell还有什么架构改进的空间吗?

回顾一下NVIDIA进入统一渲染时代后,G80直到Fermi,可以算作一个节点。在这些产品中,每一个CUDA Core都非常庞大,以Fermi的CUDA Core为例,其中不但包含了整数处理单元、浮点处理单元,甚至还包含了指令模块诸如指令分发、操作数控制、结果排序等组件。这样多个模块被放置在一个CUDACore中,实际计算模块中提供计算能力的晶体管的比例就不会很高,容易导致计算效能较低。因此从G80到Fermi,NVIDIA都在采用分频(也就是流处理器频率高于GPU频率)的方法来提高效能。

史上大核心65nm版本的GT200封装,NVIDIA首次触碰到了600平方毫米的“红线”。从此之后数代,NVIDIA都尽量将G PU面积控制在550平方毫米以下。
史上大核心65nm版本的GT200封装,NVIDIA首次触碰到了600平方毫米的“红线”。从此之后数代,NVIDIA都尽量将G PU面积控制在550平方毫米以下。

Kepler的GK110架构图,CUDACore内部结构图没有展示,但这一代作为单纯的计算单元的CUDA Core的内部结构也的确没什么好展示的。
Kepler的GK110架构图,CUDACore内部结构图没有展示,但这一代作为单纯的计算单元的CUDA Core的内部结构也的确没什么好展示的。

但是到了Kepler架构后,NVIDIA采用了SIMD阵列来加强效率。简单来说,CUDA Core就是纯粹的计算核心,无论是整数还是浮点计算,都交由SIMD阵列来完成。每一个SIMD阵列里面的计算单元,被称作CUDA Core。这相对之前Fermi的CUDA Core来说,计算单元体积小了不少,数量也多了不少,性能也高了不少——毕竟没有如此多的指令模块,也不分整数和浮点分别计算,统一计算后流处理器工作性能更高。

那Maxwell又是怎样的呢?从GM107来看,流处理器的数量被进一步加多到了960个。如果GM107的芯片面积相比之前的GK107没有大幅度增加的话,那么NVIDIA可能采用一些手段来继续加强计算模块,使得核心中用于计算的单元比例更高,性能自然会提升。这就是架构上的大幅度调整,性能增长的首要来源是架构改进。如果GM107相比GK107在核心面积和流处理器数量呈明显相关的关系的话,那GM107就很就可能是NVIDIA对Kepler架构进行了一些小调整后使用的更大的一颗核心而已。这依然包含了架构调整的内容,但是性能增加的首要来源就是晶体管规模的增大而并非架构了。

总的来看,在工艺制程无法提升的情况下,目前的Maxwell将是NVIDIA展示自己在架构设计、产品优化上深厚功底的机会。毕竟依靠工艺、提升晶体管数量得来的性能提升不算太难,但是在工艺无法进步、产品面积严格受限的情况下,架构设计就成为决定性的因素了。AMD已经展示了在28nm工艺下Hawaii所使用的GCN架构,实际上只是单纯地扩大了晶体管规模,没有做出核心架构的重大调整。那么,在Maxwell上,NVIDIA能否带来新的进展呢?我们拭目以待。

分享到:

用户评论

用户名:

密码: