微软和谷歌发布跨语言AI任务新基准

时间：2020-04-22 16:15:01来源：

导读在arXiv上发表的论文中描述了这两个基准和相关的实验。微软的XGLUE是针对英语NLU任务的通用语言理解评估(GLUE)的跨语言扩展，包括语言生成

在arXiv上发表的论文中描述了这两个基准和相关的实验。微软的XGLUE是针对英语NLU任务的通用语言理解评估(GLUE)的跨语言扩展，包括语言生成方案以及理解任务。微软团队声称XGLUE是创建跨语言生成任务基准的“首次尝试”。Google的多语言编码器跨语言迁移评估(XTREME)基准测试涵盖了9种NLU任务，涉及多种类别的“类别不同”的语言，包括句子分类，句子检索，结构化预测和问题解答，包括来自非洲和印度南部的几种未被充分研究的语言。在Google AI博客上的帖子中，梅尔文·约翰逊(Melvin Johnson)和塞巴斯蒂安·鲁德(Sebastian Ruder)写道：

我们希望XTREME能够促进多语言迁移学习的研究，类似于GLUE和SuperGLUE之类的基准如何刺激了深度单语言模型的开发，包括BERT，RoBERTa，XLNet，AlBERT等。

为了使用XTREME评估模型，该模型在多语言文本语料库上进行了预训练，“使用鼓励跨语言学习的目标”;通常，该语料库将是Wikipedia的内容，来自它支持的每种语言。接下来，根据特定于任务的数据对模型进行微调;此数据仅英文。最后，XTREME在其他语言的特定于任务的数据集上评估模型。这些任务的数据集是：

句子分类：跨语言自然语言推理(XNLI)语料库和单词加扰中的跨语言释义对手(PAWS-X)

结构化预测：通用相关性v2.5词性(POS)数据集和Wikiann命名实体识别(NER)数据集

问答：跨语言问答数据集(XQuAD)，多语言问答(MLQA)和类型多样的问答(TyDiQA-GoldP)

句子检索：建立和使用平行语料库(BUCC)和Tatoeba数据集

Google团队在其基准测试中测试了多种最新模型，包括多语言BERT(mBERT)，XLM，XLM-R和M4。他们发现，这些模型在英语上的表现“接近人类”，而在其他语言上的表现要低得多，尤其是在句子检索和结构化的预测任务上。在这些模型中，XLM-R表现最佳。

微软的XGLUE使用与XTREME相同的几个任务，包括MLQA，XNLI，PAWS-X，NER和POS。它还包括新闻分类和页面排名任务，以及问题和新闻标题文本生成任务。Microsoft团队还为跨语言NLU任务创建了Unicoder预训练模型的扩展。在他们的实验中，他们将该模型与mBERT，XLM和XLM-R模型进行了比较。他们发现Unicoder在“几乎所有任务”上都优于其他模型。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：微软谷歌 AI

上一篇:人工智能是了解客户和竞争对手的关键

下一篇:耗资100000英镑的项目将使AI用于加速成人ADHD诊断