Google正在使用不同的AI技术来提高翻译质量

时间:2020-06-08 16:05:13来源:
导读 最近,Google宣布将采用一些新的创新技术来翻译108种语言,这将得到Google Translate的支持,该服务每天可翻译近1500亿个单词!Google翻译

最近,Google宣布将采用一些新的创新技术来翻译108种语言,这将得到Google Translate的支持,该服务每天可翻译近1500亿个单词!

Google翻译已经使用了“神经机器翻译”,“基于重写范例”和“设备上处理”的技术,所有这些技术都使翻译相当准确。但是,这些技术都无法击败人类的表现,这是事实。

所有这些技术的结合针对低资源语言和高资源语言,推理速度和延迟。这就是为什么“翻译”在所有语言上都显示出5分以上的改进,而对于50种资源最少的语言,则在一年内获得了7分以上改进的原因。

这些改进是通过人工评估和基于人类参考翻译与系统翻译之间相似性的度量系统(称为BLEU)来衡量的。

Google Translate还显示出在应对机器翻译幻觉现象方面的改进,在这种机器翻译幻觉现象中,当AI模型得到无意义的输入时,它们会给出奇怪的翻译。

Google现在要使用的第一种技术是混合架构模型。它是变压器编码器和递归神经网络(RNN)解码器的混合体。

在机器翻译方面,编码器将单词和短语编码为内部表示,并且解码器使用这些表示来生成用户期望的语言的文本。

如果数据输入语言是自然语言,则Transformer不需要在处理结束之前先处理句子的开始。这也许就是为什么基于变压器的模型比RNN更有效的原因。但是RNN解码器被认为比Transformer中的解码器具有更高的推理速度。

现在,Google Translate对RNN解码器进行了优化,并将其与Transformer编码器相结合,并创建了这种低延迟混合模型,其功能出众!

Google还升级了其Data Miner。现在,它针对14种大语言对是“基于嵌入的”,而不是“基于字典的”。这意味着它使用较少的数字向量来表示单词和短语,同时更多地关注“精度”,这是相关数据在检索到的数据中所占的比例,而较少关注“回忆”,这是指在总检索量中所占的比例检索到的相关数据。

这使句子的数量增加了矿工提取的句子的29%,这是一个很好的改进。

Google使用的另一项技术是创建训练数据中的噪声处理模型。

噪声是具有大量无法正确理解或解释的信息的数据。它损害了容易获得大量翻译的语言的翻译。

因此,为了解决这些嘈杂的数据,Google Translate创建了一个课程学习系统,该系统使用对噪声数据进行训练的模型将分数分配给示例,并根据“干净的”数据对其进行调整。因此,模型开始对所有数据进行训练,然后逐渐开始对更小和更干净的数据子集进行训练。

最新文章