LightOn研究人员解释了他们如何在光学协处理器上训练AI模型

时间:2020-06-04 16:13:42来源:
导读 在预印服务器Arxiv org上发表的技术论文中,LightOn是一家开发用于AI应用程序的光学计算硬件的初创公司,其科学家详细介绍了他们所谓的能够

在预印服务器Arxiv.org上发表的技术论文中,LightOn是一家开发用于AI应用程序的光学计算硬件的初创公司,其科学家详细介绍了他们所谓的能够加速AI模型训练的光学协处理器之一。在对流行的MNIST手写数字数据集进行的实验中,他们的协处理器(光学处理单元)表面上帮助训练了一个模型,以95.8%的精度识别数字,而在图形卡上进行训练的模型则达到了97.6%的精度。

光子集成电路是LightOn芯片的基础,与电子同类产品相比,具有许多优势。它们仅需有限的能量,因为光产生的热量少于电,并且它们不易受到环境温度,电磁场和其他噪声变化的影响。与硅等效产品相比,光子设计中的延迟提高了10,000倍,而功耗水平却降低了“几个数量级”,而且,某些模型的工作负载运行速度比最新的电子芯片快100倍。

根据该论文,LightOn研究人员使用一种内部光学芯片,该芯片经过修改以包括离轴全息照相技术(参比光束与物光束之间的小角度,可以防止重叠),并与一种称为直接反馈对准(DFA)的技术相结合。在机器学习中,DFA将模型错误率的随机预测用作训练信号,这使构成模型的每一层都可以独立于其他层进行更新。

典型的AI模型由连接到一个或多个密集层中的“神经元”(数学函数)组成。沿着神经元传输的信号会调整连接的突触强度(权重),并以此方式从数据中提取特征并学习进行预测。通常,反向传播(错误的向后传播)用于发送信号并进行各种调整,但是反向传播会阻止层的异步处理。层的调整取决于模型中其他地方的数据,从而导致效率低下。为了追求更快的基于光学的DFA方法,LightOn研究人员的芯片将一种称为矢量的数字表示编码到光束上,该分量具有用于空间调制光的组件。光束通过扩散器传播,并导致相机检测到的推断图案(斑点)以及光束的强度。这使芯片可以提供非常大的随机模型误差预测-理论上超过一千亿个参数,在此情况下,它们指的是模型内部的配置变量,这些变量定义了问题模型的技能。

在实验过程中,合著者训练了一个模型,该模型包含10个时期的1,024个神经元,这意味着MNIST中的每个样本都有机会将参数更新10次。LightOn的协处理器以1.5 kHz的频率运行,每秒执行1,500次随机投影,消耗约30瓦的功率,比一般的图形卡的功率效率高出一个数量级。

研究人员推测,切换到不同的全息方案将使执行涉及超过一万亿个参数的计算成为可能,但他们将其留给未来的工作。他们写道:“随着神经网络变得越来越大,越来越复杂,数据量越来越大,培训成本也在飞涨。”“我们希望通过优化当前可用的组件以及开发未来的组件来改善[在我们的芯片上]的性能。对DFA的更好理解也将有助于扩大该加速器的应用范围。”

值得注意的是,LightOn的硬件旨在插入标准服务器或工作站中,因此无法不受光学处理的限制。快速的光子电路需要快速的存储,然后是将每个组件(包括激光器,调制器和光学组合器)封装在一个微小的芯片晶圆上的问题。此外,关于在光学领域可以执行哪种类型的非线性运算(使模型能够进行预测的基本模型构建块)仍存在疑问。

标签:AI模型
最新文章