如何通过扩展实现AI工作流程可扩展性

时间:2020-11-10 15:26:40来源:
导读当今技术向AI模型训练和海量数据集AI推理的技术转变为高级HPC设计带来了独特的挑战。随着传感器和网络技术的发展,数据变得越来越复杂,以

当今技术向AI模型训练和海量数据集AI推理的技术转变为高级HPC设计带来了独特的挑战。随着传感器和网络技术的发展,数据变得越来越复杂,以相同速率或更快速地处理数据的需求也在增长。在数据科学界,在新数据集上训练模型所花费的时间可能对最终应用程序的有用性,获利能力或实施时间表产生滚雪球式的影响。对于AI推理平台,必须实时处理数据,以做出瞬间决策,以最大化效率。在不影响数据集大小的前提下,扩展模型训练速度的最佳方法是添加模块化数据处理节点。

在AI的世界中,获得更多计算能力的途径是在计算结构中拥有更多GPU。可以添加到AI培训平台的每个GPU都可以提高整个系统的并行计算能力。但是,许多AI计算平台在关键方面都受到限制,例如可用功率,冷却,扩展插槽和机架空间。在这些情况下,数据科学家希望使用旨在满足其数据集可伸缩性需求的PCIe扩展系统。PCIe扩展系统提供了一种模块化且可扩展的方式,可以以密集,受控和可靠的尺寸将GPU添加到计算结构中。

OSS 4U Pro GPU加速器系统连接到一个或多个主机节点,从而为最新的NVIDIA A100 Tensor Core GPU添加了8个PCIe Gen4 x16扩展插槽。A100 GPU可以单独使用,也可以使用NVIDIA®NVLink™桥物理链接,以利用NVLink 600 GB / s的互连吞吐量。4U Pro系统最多使用四个PCIe Gen4 x16主机总线适配器,以高达128 GB / s的速度将数据传入和传出计算加速器。4U Pro的高级功能包括冗余交流或直流入口电源,IPMI系统监控,动态风扇速度控制。可配置的主机/ NIC插槽为具有任何吞吐量或配置要求的一系列AI计算应用程序提供了灵活性。此外,

标签:AI
最新文章