NVIDIA的RTX 30系列拥有两倍于TFLOP的性能

时间:2020-09-29 15:17:08来源:
导读 NVIDIA的RTX 30系列大张旗鼓地宣布了性能要求和规格,令人jaw目结舌,但在所有的炒作和第三方审查之间,承诺的性能翻番却无影无踪。今天,

NVIDIA的RTX 30系列大张旗鼓地宣布了性能要求和规格,令人jaw目结舌,但在所有的炒作和第三方审查之间,承诺的性能翻番却无影无踪。今天,我们将调查一个困扰NVIDIA GPU的非常有趣的现象,以及为什么不是一切看起来都如此。没有什么可以作为福音真理让您相信,并且鼓励您根据自己的口味使用自己的判断。

论点很简单,Jensen承诺将Ampere GPU的图形处理能力提高一倍,因此我们应该看到大多数游戏的阴影处理性能大约提高一倍(没有像DLSS或RTX这样的花哨功能)。最奇怪的是,这没有发生。实际上,即使RTX 3090的阴影核心数量是RTX 3090的两倍多,其游戏阴影效果也比RTX 2080 Ti快30%至50%。毕竟,TFLOP只是阴影时钟乘以时钟速度的函数。某种程度上,性能正在丢失。

发生三件事之一:

Ampere的唯一阴影核心在某种程度上逊于图灵,而这些卡实际上无法提供FP32 TFLOPs编号(换句话说,詹森说谎)。

卡的BIOS /微代码或低级驱动程序中有问题

高级驱动程序/游戏引擎/软件堆栈无法扩展以正确利用Ampere卡中存在的大量着色核心。

对我们来说幸运的是,这是一个我们可以使用科学方法轻松调查的问题。如果Ampere卡的着色器内核在某种程度上不如Turing,那么我们使用* any *应用程序就不能获得FP32性能的两倍。简单吧?但是,如果我们可以在* any *应用程序上获得声称的性能,那么它将变得有些棘手。尽管它可以解决任何麻烦,但我们随后需要确定软件堆栈/高级驱动程序是否有故障,或者是否是微代码问题。尽管您可以高度确定地解决硬件与软件,但是您不能在软件方面做同样的事情。但是,您可以做出很好的猜测。我们的逻辑流程图如下:

渲染应用程序设计为使用大量图形功能。换句话说,他们的软件编码比游戏具有指数级的扩展能力(实际上,过去有些游戏拒绝以高于16的核心数量工作)。如果* a *渲染应用程序可以证明性能提高一倍,则不应该怪硬件。核心并不逊色。如果* all *渲染应用程序可以充分利用,那么低级驱动程序堆栈也不应怪。这将使您直指DirectX,GameReady驱动程序之类的API,以及游戏引擎的实际代码。因此,事不宜迟,让我们来看一下。

VRAY是用于GPU的阴影最密集的基准之一。本质上,它是用于GPU的Cinebench。它还有助于该程序针对CUDA架构进行优化,从而代表NVIDIA卡的“最佳情况”。如果Ampere系列产品在这里无法提供双倍的性能,那么它将在其他任何地方都无法实现。VRAY中的RTX 3090可以很轻松地实现RTX 2080 Ti的遮光性能两倍以上。还记得我们的流程图吗?

由于我们有一个程序实际上可以在“现实世界”的工作量中将性能提高一倍,因此,这显然意味着Jensen并不是在撒谎,并且RTX 30系列实际上能够提供所声称的性能数据-至少在硬件方面去。因此,我们现在知道,性能在某处的软件方面正在丢失。有趣的是,Octone的缩放比VRAY差一些-这是缺乏底层驱动程序的轻微证据。但是,总体而言,渲染应用程序的缩放比游戏应用程序平滑得多。

标签:NVIDIARTX30
最新文章