微软和谷歌发布跨语言AI任务新基准

时间:2020-04-22 16:15:01来源:
导读在arXiv上发表的论文中描述了这两个基准和相关的实验。微软的XGLUE是针对英语NLU任务的通用语言理解评估(GLUE)的跨语言扩展,包括语言生成

在arXiv上发表的论文中描述了这两个基准和相关的实验。微软的XGLUE是针对英语NLU任务的通用语言理解评估(GLUE)的跨语言扩展,包括语言生成方案以及理解任务。微软团队声称XGLUE是创建跨语言生成任务基准的“首次尝试”。Google的多语言编码器跨语言迁移评估(XTREME)基准测试涵盖了9种NLU任务,涉及多种类别的“类别不同”的语言,包括句子分类,句子检索,结构化预测和问题解答,包括来自非洲和印度南部的几种未被充分研究的语言。在Google AI博客上的帖子中,梅尔文·约翰逊(Melvin Johnson)和塞巴斯蒂安·鲁德(Sebastian Ruder)写道:

我们希望XTREME能够促进多语言迁移学习的研究,类似于GLUE和SuperGLUE之类的基准如何刺激了深度单语言模型的开发,包括BERT,RoBERTa,XLNet,AlBERT等。

为了使用XTREME评估模型,该模型在多语言文本语料库上进行了预训练,“使用鼓励跨语言学习的目标”;通常,该语料库将是Wikipedia的内容,来自它支持的每种语言。接下来,根据特定于任务的数据对模型进行微调;此数据仅英文。最后,XTREME在其他语言的特定于任务的数据集上评估模型。这些任务的数据集是:

句子分类:跨语言自然语言推理(XNLI)语料库和单词加扰中的跨语言释义对手(PAWS-X)

结构化预测:通用相关性v2.5词性(POS)数据集和Wikiann命名实体识别(NER)数据集

问答:跨语言问答数据集(XQuAD),多语言问答(MLQA)和类型多样的问答(TyDiQA-GoldP)

句子检索:建立和使用平行语料库(BUCC)和Tatoeba数据集

Google团队在其基准测试中测试了多种最新模型,包括多语言BERT(mBERT),XLM,XLM-R和M4。他们发现,这些模型在英语上的表现“接近人类”,而在其他语言上的表现要低得多,尤其是在句子检索和结构化的预测任务上。在这些模型中,XLM-R表现最佳。

微软的XGLUE使用与XTREME相同的几个任务,包括MLQA,XNLI,PAWS-X,NER和POS。它还包括新闻分类和页面排名任务,以及问题和新闻标题文本生成任务。Microsoft团队还为跨语言NLU任务创建了Unicoder预训练模型的扩展。在他们的实验中,他们将该模型与mBERT,XLM和XLM-R模型进行了比较。他们发现Unicoder在“几乎所有任务”上都优于其他模型。

最新文章