首页 科技 > 内容

Google开源AI可以将自然语言映射到UI动作中

时间:2020-07-29 10:36:50 来源:

Google已开放其AI模型的源代码,用于将自然语言指令序列转换为移动设备用户界面中的操作。该模型基于Transformer深度学习架构,在为该项目创建的新基准数据集上达到70%的准确性。

Google Research的一组科学家在最近的计算语言协会(ACL)会议上发表了一篇描述该模型的论文。该项目的目标是为视障人士或临时需要“免提”模式的移动设备用户开发自然语言界面。系统依次使用两个Transformer模型:第一个将自然语言指令转换为一系列“动作短语”,第二个通过将动作短语与屏幕上的UI对象进行匹配来“固定”动作短语。正如研究科学家Yang Li在博客文章中描述该项目时,

这项工作为移动设备上的任务自动化奠定了技术基础,从而减轻了通过UI细节进行操作的需求,这对于视力或状况受损的用户可能特别有价值

该变压器是用于映射输入序列由谷歌在2017年开发的输出序列的深学习架构它具有比其它序列学习架构,例如回归神经网络(RNN),包括在训练更稳定和更快速推理几个优点;因此,大多数最先进的自然语言处理(NLP)系统都是基于Transformer的。变压器中的关键操作是注意力,它可以学习输入和输出序列的不同部分之间的关​​系。例如,在接受过从一种语言到另一种语言的翻译的Transformer中,注意力通常会学习源语言中的单词到目标语言中的单词的映射。

在Google的新AI中,一个Transformer使用一种称为区域注意力的注意力形式来识别输入指令中相邻单词的跨度,这些单词映射到离散动作:例如,“导航至”。此Transformer将自然语言的输入指令序列转换为表示UI动作的元组序列。每个元组包含一个操作(例如“打开”或“单击”),要对其进行操作的对象的描述(例如“ Settings”或“ App Drawer”)以及一个可选参数(例如,应在文本框中输入)。要执行这些动作,必须将它们接地通过标识正确的UI对象。这是由另一个Transformer完成的;该Transformer的输入既包括动作短语元组,又包括设备屏幕上当前的UI对象集。变形金刚学会根据动作短语元组的描述选择对象。

为了训练模型,Google创建了两个数据集-每个Transformer一个。通过抓取网络中与Android设备有关的“操作方法”问题的答案,收集了一个名为AndroidHowTo的数据集,用于训练动作短语提取Transformer。人类注释者通过在答案说明中识别动作短语元组来标记数据。最终的数据集包含近10k标记的指令,代表190k动作。对于接地变压器,该团队生成了一个称为RicoSCA的综合数据集。从一个名为Rico的公开可用数据集开始,该数据集包含用于Android应用程序的72k UI屏幕,该团队从屏幕中随机选择UI元素并为其生成命令,例如“轻按”或“单击”。结果数据集包含近300k命令。

标签: Google AI