NVIDIA的RTX 30系列拥有两倍于TFLOP的性能

时间：2020-09-29 15:17:08来源：

导读 NVIDIA的RTX 30系列大张旗鼓地宣布了性能要求和规格，令人jaw目结舌，但在所有的炒作和第三方审查之间，承诺的性能翻番却无影无踪。今天，

NVIDIA的RTX 30系列大张旗鼓地宣布了性能要求和规格，令人jaw目结舌，但在所有的炒作和第三方审查之间，承诺的性能翻番却无影无踪。今天，我们将调查一个困扰NVIDIA GPU的非常有趣的现象，以及为什么不是一切看起来都如此。没有什么可以作为福音真理让您相信，并且鼓励您根据自己的口味使用自己的判断。

论点很简单，Jensen承诺将Ampere GPU的图形处理能力提高一倍，因此我们应该看到大多数游戏的阴影处理性能大约提高一倍(没有像DLSS或RTX这样的花哨功能)。最奇怪的是，这没有发生。实际上，即使RTX 3090的阴影核心数量是RTX 3090的两倍多，其游戏阴影效果也比RTX 2080 Ti快30%至50%。毕竟，TFLOP只是阴影时钟乘以时钟速度的函数。某种程度上，性能正在丢失。

发生三件事之一：

Ampere的唯一阴影核心在某种程度上逊于图灵，而这些卡实际上无法提供FP32 TFLOPs编号(换句话说，詹森说谎)。

卡的BIOS /微代码或低级驱动程序中有问题

高级驱动程序/游戏引擎/软件堆栈无法扩展以正确利用Ampere卡中存在的大量着色核心。

对我们来说幸运的是，这是一个我们可以使用科学方法轻松调查的问题。如果Ampere卡的着色器内核在某种程度上不如Turing，那么我们使用* any *应用程序就不能获得FP32性能的两倍。简单吧?但是，如果我们可以在* any *应用程序上获得声称的性能，那么它将变得有些棘手。尽管它可以解决任何麻烦，但我们随后需要确定软件堆栈/高级驱动程序是否有故障，或者是否是微代码问题。尽管您可以高度确定地解决硬件与软件，但是您不能在软件方面做同样的事情。但是，您可以做出很好的猜测。我们的逻辑流程图如下：

渲染应用程序设计为使用大量图形功能。换句话说，他们的软件编码比游戏具有指数级的扩展能力(实际上，过去有些游戏拒绝以高于16的核心数量工作)。如果* a *渲染应用程序可以证明性能提高一倍，则不应该怪硬件。核心并不逊色。如果* all *渲染应用程序可以充分利用，那么低级驱动程序堆栈也不应怪。这将使您直指DirectX，GameReady驱动程序之类的API，以及游戏引擎的实际代码。因此，事不宜迟，让我们来看一下。

VRAY是用于GPU的阴影最密集的基准之一。本质上，它是用于GPU的Cinebench。它还有助于该程序针对CUDA架构进行优化，从而代表NVIDIA卡的“最佳情况”。如果Ampere系列产品在这里无法提供双倍的性能，那么它将在其他任何地方都无法实现。VRAY中的RTX 3090可以很轻松地实现RTX 2080 Ti的遮光性能两倍以上。还记得我们的流程图吗?

由于我们有一个程序实际上可以在“现实世界”的工作量中将性能提高一倍，因此，这显然意味着Jensen并不是在撒谎，并且RTX 30系列实际上能够提供所声称的性能数据-至少在硬件方面去。因此，我们现在知道，性能在某处的软件方面正在丢失。有趣的是，Octone的缩放比VRAY差一些-这是缺乏底层驱动程序的轻微证据。但是，总体而言，渲染应用程序的缩放比游戏应用程序平滑得多。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：NVIDIA RTX30

上一篇:KINGPIN亲自为我们介绍了EVGA的旗舰GeForce RTX 3090显卡

下一篇:微星秘密改造GeForce RTX 3080的稳定性问题