现代计算 GPU 旨在不惜一切代价提供令人难以置信的性能

时间:2022-05-07 14:50:09来源:
导读 现代计算 GPU 旨在不惜一切代价提供令人难以置信的性能,因此它们的功耗和冷却要求非常巨大。Nvidia 最新的基于 Hopper 架构的 H100...

现代计算 GPU 旨在不惜一切代价提供令人难以置信的性能,因此它们的功耗和冷却要求非常巨大。Nvidia 最新的基于 Hopper 架构的 H100 计算 GPU 可以消耗高达 700W 的功率,以提供高达 60 FP64 Tensor TFLOPS,因此从一开始就很明显,我们正在处理一个相当可怕的 SXM5 模块设计。然而,英伟达从未展示过它。

我们来自 ServeTheHome的同事有幸参观了 Nvidia 的一个办公室并亲自看到了 H100 SXM5 模块,他们在周四发布了一张计算 GPU 的照片。这些 SXM5 卡专为 Nvidia 自己的 DGX H100 和 DGX SuperPod 高性能计算 (HPC) 系统以及第三方设计的机器而设计。这些模块不会在零售中单独提供,因此看到它们是一个难得的机会。

Nvidia 的 H100 SXM5 模块搭载全功能的 GH100 计算 GPU,具有 800 亿个晶体管,包含 8448/16896 FP64/FP32 内核以及 538 个 Tensor 内核(有关 H100 规格和性能的详细信息,请参见下表)。GH100 GPU 配备 96GB 的 HBM3 内存,但由于 ECC 支持和其他一些因素,用户可以访问使用 5120 位总线连接的 80GB 启用 ECC 的 HBM3 内存。图中特定的 GH100 计算 GPU 是 A1 修订版,标记为 U8A603.L06,于 2021 年第 53 周(即 12 月 28 日至 12 月 31 日)打包。

Nvidia 的 GH100 尺寸为 814mm^2,这使其成为有史以来最大的芯片之一。事实上,英伟达最近计算 GPU 的裸片尺寸主要受限于现代半导体生产工具的标线尺寸,大约为 850mm^2。由于使用定制的台积电 N4 工艺技术(属于 N5 系列节点)制造的芯片由 800 亿个晶体管组成,工作频率约为 1.40 ~ 1.50 GHz,因此 GPU 非常耗电。Nvidia 将其热设计功率定为 700W(但这个数字可能会发生变化),因此它需要一个极其复杂的电压调节模块 (VRM) 来提供足够的功率来养活野兽。

事实上,H100 SXM5 模块配备了一个 VRM,该 VRM 具有 29 个大电流电感器,每个电感器配备两个功率级以及三个电感器和一个功率级。电感器可以长时间承受高温,它们采用金属外壳,使 VRM 冷却更容易。

SXM5 模块的尺寸未知,但它们与用于计算 GPU 的上一代 Nvidia 模块几乎没有显着差异。同时,Nvidia 更改了 SXM5 的连接器布局(在 ServeTheHome上查看),可能是因为其 GH100 支持更高的功耗和更快的 PCIe Gen5 和 NVLink 数据速率。

标签:
最新文章