初期上市的GTX 980只有NVIDIA的公版显卡,因此我们的测试亦基于公版GTX 980。至于GTX 970则与之相反,没有所谓的公版设计,各厂商只能依照NVIDIA给出的参考方案设计非公版型号。而先抵达MC评测室的,是来自七彩虹的iGame GTX 970烈焰战神U,也就成为本测试的GTX 970代表。
此前我们已经分析过,对比GK104每SMX 192个CUDA Core,GM204的SMM的CUDA Core数量仅128个,少了33%。但是考虑1.4倍的性能提升,因此GM204每个SMM和GK104每个SMX单元具备的计算性能是基本相同的。所以,GM204相比GK104就相当于拥有了差不多两倍的理论计算性能(16个SMM对比8个SMX)。而对比拥有15组SMX的GK110,我们的预计是GM204略强一些,或者两者处于伯仲之间。当然,细心的玩家可能已经从规格对比中发现,GM204只拥有52亿晶体管,而GK110却有71亿个。半导体芯片性能跟晶体管数量成正比已经是个“常识”,以此经验,我们基于理论技术推断两者性能在伯仲间的结论似乎站不住脚。然而事实展现了Maxwell架构的不可思议!在3DMark等理论测试中,GTX 980完胜包括GTX Titan BE和GTX 780Ti在内的所有GK110产品。相比对手的R9 290X,更是领先了15%之多。当然,我们也要看到,GTX 980相比GTX 780Ti的领先幅度并不大,大约5~8%。这和16个SMM对比15个SMX约6~7%的差距基本吻合,印证了我们对SMM和SMX单元性能基本相当的推断。值得一提的是GTX 970,它比GTX 980少了3个SMM模块,总计384个CUDA Core,理论计算能力降低了大约25%。但iGame GTX 970的核心频率比公版高出80MHz,实测差距并没这么大,仅落后约12%,基本达到上代旗舰GTX 780Ti的水平。
实际游戏测试结果则不像理论性能测试这么“极端”,GTX 980的表现和GTX 780Ti/TitanBE等产品基本在伯仲之间,多数时候GTX 980小幅领先,《古墓丽影9》和《蝙蝠侠:阿卡姆起源》反而明显落后。此时,在理论测试中和GTX 780Ti/Titan BE差距甚小的GTX 970则表现出明显差距,游戏性能要逊色一些。
在对比官方给出的规格表时,应该也有读者发现了GM204的一个特别之处—光栅单元的成倍提升。GM204总显存位宽256bit被分拨给4个显存控制器管理,每个显存控制器下仅辖64bit,但ROP单元却高达16个,这比上代Kepler产品的每显存控制器只配备8个ROP的规格提升了一倍。更多的ROP单元在面对更高的分辨率、更多的像素以及更高级别的抗锯齿时,有着更强悍的抗压能力和更出色的性能输出。这一点是英伟达考虑到4K时代的来临而做出的重要改变。而这也确实对游戏性能的发挥产生了明显影响,至少在我们的游戏对比中有明显效果。在1080p分辨率测试中,GTX 980/970显卡的表现和理论测试有些出入,部分项目被反超。仔细分析,你会发现3DMark Strike Extreme提高了分辨率,达到2560×1600;而3DMark 11 Extreme则加上了极高的抗锯齿设置。在这些测试项目发布之初,与之对应的严苛环境少有游戏会用到,所以当时的显卡也未针对此进行优化。现在,如1600p、4K等超1080p分辨率逐渐在游戏中普及,GTX 900系列的设计自然更偏向于高分辨率、抗锯齿环境,与之恰好对应。实际上也只有高分辨率和高抗锯齿需求,才能充分发挥出GM204光栅单元翻倍、显存容量大的优势。所以在将显示器分辨率提升到2560×1600后,我们看到GTX 980/970的表现重回正轨,在《蝙蝠侠:阿卡姆起源》测试中和GTX Titan BE旗鼓相当,而《古墓丽影9》中更是全面反超。
NVIDIA有关几何处理的部件一直和流处理器模块(SMM/SMX层级)绑定,而不是像AMD那样和全局GPU绑定。这样做的好处是随着GPU规模增大,几何性能也会逐渐上升,因此从Fermi以来,英伟达的GPU在几何性能诸如曲面细分处理能力上都显著强于AMD的同档次产品。AMD的全局设计,虽然简单,但是面对复杂的几何操作时更容易出现瓶颈。这也就是实际的测试和游戏体验中,N卡相比A卡拥有曲面细分计算优势的主要原因。
在Maxwell上,NVIDIA又带来了全新的PolyMorph Engine 3.0,相比之前的Kepler上的版本,PolyMorph Engine 3.0加强了高Factor下的计算性能,这样一来GPU在重压下也能够提供更好的曲面细分计算能力。对应到GM204,拥有16组SMM,因此获得了16个PolyMorph Engine 3.0模块,相比只有8个PolyMorph Engine模块的GK104,取得了压倒性的、一倍以上的理论计算能力。从英伟达官方资料来看,在Factor系数较低的时候,GM204的性能优势尚无法完全体现出,只有GK104的2倍,但是只要Factor系数增加到31以上,GM204的PolyMorph Engine 3.0胜出幅度就会越来越大,终能达到3倍于GK104的水平。也因此,在注重曲面细分测试的Unigine测试软件中,GTX 980成绩几乎达到GTX 680的两倍,也明显领先上代旗舰GTX 780Ti,相比对手的R9 290系列的领先幅度也高达30%。
我想用化腐朽为神奇来形容DSR,但这并不准确,说它充分利用了GPU的富余计算能力更实在一些。当然,这个前提是你面对的游戏不是《孤岛危机3》这样的显卡杀手。在诸如《坦克世界》、《蝙蝠侠:阿卡姆起源》等游戏中,GTX 980能提供的平均帧率已经大幅超越了60fps。多余的帧率并不能带给你更流畅的感觉,也不能让画面更精美,反而会有让画面出现撕裂的隐患。而此时,你完全可以借助DSR功能,将富余的计算能力利用起来,美化游戏画面,讨好自己的眼睛,与此同时还能不影响流畅度,这何乐而不为呢?
当然,DSR并非免费为你提高画面精细度,玩家在享受这个功能的时候,需要注意自己平台的图形处理性能是否能处于“富余”状态,如何定义?看看我们的对比测试成绩你能看出……在《蝙蝠侠:阿卡姆起源》中,1080p分辨率下的高画质也不能给GTX 980带来压力,平均帧率高达140fps。此时我们开启DSR 3840×2160,相当于将游戏分辨率提高到4K水平(前文已详述DSR技术原理和效果,在此不再赘述)。渲染压力增大,帧率必然有所降低,但依旧能保持在80+fps的水平。《地铁:后的曙光》和《坦克世界》的情况又略有不同,在1080p下帧率80左右,若开启4K水平的DSR,帧率会迅速下降到不足40fps。这难以保证游戏全场的流畅性,偶尔会出现卡顿。因此,此时将DSR动态分辨率调整到2560×1600更合理,帧率在50~60fps之间,流畅性有保障,画面相对4K DSR稍差,但也比1080p精美了不少。
很早之前,在Kepler架构都还未正式发布的时候,我们就从NVIDIA的官方幻灯片里看到了对Maxwell架构的简单描述。让我们印象深刻的别无其他,就是能耗比上的提升目标。Kepler能耗比相比Fermi翻倍,Maxwell要相比Kepler翻倍。在当时想来,伴随半导体工艺的进步和核心架构的优化,这样的目标显得并不意外。但当TSMC的半导体工艺在28nm长期滞留之后,我们突然意识到这是一个多么困难的任务。要在工艺不变的前提下,让能耗比提升一倍?这对显示核心架构的设计要求有多高我们无法量化,只能说只依靠架构优化获得如此成就是史无前例的,因此一度怀疑这个目标达成的可能性,也曾猜测NVIDIA是否会秘密上马新工艺。事实证明NVIDIA完成了一个“不可能完成”的任务,若说GM107达到此目标还借助了核心规格小巧的原因,那GM204的表现则彻底让大家心服口服。GTX 980只需要2个外接6pin接口,官方TDP仅165W。通过严苛的FurMark拷机,实测测试平台的功耗也仅285W,同平台下比GTX 680都还低。但上面的性能测试已经告诉我们,它的性能水平已经达到甚至超过了GTX Titan BE的水平。毫无疑问,GTX 980绝对是28nm节点下的能耗比之王。
相对架构和性能的改进,GM204在视频编码、解码上的改进显得重视力度不够高。顺意而为地为GTX 980/970用上了HDMI 2.0接口,也加入了针对H.265编码的优化,看似能满足用户对未来4超高清视频解码的需求。但经过我们测试,用显卡硬解H.265的4K超高清视频并没有想象中的流畅。很显然,官方所谓的H.265加速是相对原来只能依靠软解的情况,现在能通过GM204得到部分硬件加速,但纯硬解尚欠火候。那么H.264呢?官方宣称效率达到Kepler架构的2.5倍。对比1080p,4K的实际输出像素提高到4倍,解码需求若等比例提高,也需要4倍于1080p的硬解性能。Kepler硬解1080p是轻松愉快,但2.5倍于Kepler的Maxwell能搞定4K吗?实际测试发现流畅与否还是跟视频码率有关,同样是4K分辨率,《Sintel》的码率只有50~60Mb/s,也就是高质量1080p的水平,此时GTX 980硬解毫无压力。但面对《Crowd Run》这样码率爆表到300Mb/s以上水平的视频,也有些招架不住,出现偶尔卡顿。看来全面硬解4K超高清,还得看下代架构……
DSR 4K(右),注意草尖、纹路等画面细节,比普通1080p提升了一个档次。
GTX 980展示了Maxwell架构成熟后的魅力,相比性能,我们依旧更为赞赏它的能耗比表现。因为就性能来说,它相比对手当前的旗舰领先仅约10%。就以往的经验,对方换代产品在性能上提升30~40%将它反超并非不可能。但这需要花费的代价难以估量,不是冒险启用新工艺,就是增大核心面积……同工艺下的能耗比表现难以实现反超。更重要的是,GTX 900系列的定价在我们看来颇有杀伤力,比GTX Titan BE这样的上代旗舰便宜了不止一半。这颇有些当年AMD执行小核心策略,主攻甜点定位的感觉。实际上GM204核心300多平方毫米的Die规格比对手的400多平方毫米“小核心”还小,对比NVIDIA以往500+平方毫米的大家伙来说,也只能算是甜点产品。
其实,就价格来说,值得注意的应该是GTX 970,其性能达到GTX 980的90%左右,成功跻身当前PC游戏显卡的顶级水平。但其定价仅2000多元,足以让以往4000元级甚至8000元级的旗舰“掩面泪奔”。
至于随Maxwell一起面世的众多画面优化技术,前景值得期待,但要想在游戏中体验到,估计还需要不短的时间。GTX 980打好了硬件基础,但更多的是服务于开发者,普及到PC端则有待下一代显卡来完成。比如VXGI,需要游戏开发者重新设计引擎。我们只期待NVIDIA和游戏引擎厂商能更积极、紧密的合作,早点让我们体验到下代真实光照引擎带来的震撼效果。