mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences
解决问题:本论文旨在开发一种适用于处理长输入的多语言、高效的文本到文本转换器,以解决长序列任务中的问题。此前的研究已经证明了在NLP领域中,处理长序列是一个非常具有挑战性的问题。
关键思路:本文提出了一种名为mLongT5的模型,它基于LongT5的架构,利用了mT5的多语言数据集和UL2的预训练任务。该模型在多语言摘要和问答任务中进行了评估,结果显示与现有的多语言模型(如mBART或M-BERT)相比,mLongT5表现更出色。该模型的关键在于引入了一种新的机制,即“长序列块”,这使得模型能够更好地处理长序列输入。
其他亮点:本文还提出了一种新的评估指标,称为“长序列指标”,用于评估模型在处理长序列时的表现。此外,作者还开源了他们的代码,使得其他研究人员可以在此基础上进行进一步的研究。
关于作者:本文的主要作者是David Uthus、Santiago Ontañón、Joshua Ainslie和Mandy Guo。他们分别来自Google Research、Carnegie Mellon University和University of California, Berkeley。David Uthus之前的代表作包括“Improving Multilingual Neural Machine Translation with Language Model Integration”;Santiago Ontañón之前的代表作包括“Experiments in Plan Recognition and Machine Learning”;Joshua Ainslie之前的代表作包括“X-Former: Transformer-XL with Efficient Attention”;Mandy Guo之前的代表作包括“Multi-Task Learning for Multiple Language Translation”。
相关研究:近期的其他相关研究包括:“mT5: A massively multilingual pre-trained text-to-text transformer”(Liu等人,Google Research)和“Longformer: The Long-Document Transformer”(Beltagy等人,Allen Institute for AI)。
论文摘要:我们介绍了我们开发的一种多语言、高效的文本到文本转换器,适用于处理长输入。这个模型叫做mLongT5,它基于LongT5的架构,同时利用了用于预训练mT5和UL2预训练任务的多语言数据集。我们在各种多语言摘要和问答任务上评估了这个模型,结果显示与现有的多语言模型如mBART或M-BERT相比,mLongT5表现更强。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢