标题:脸书|Robustly Optimized and Distilled Training for Natural Language Understanding(自然语言理解的严格优化和提炼训练)

简介:在本文中,我们探索了多任务学习(MTL)作为第二个预训练步骤,以学习增强的通用语言表示变换器语言模型。 我们使用MTL增强了跨多个表示自然语言理解任务,以提高性能和泛化能力。 而且,我们结合了知识提炼(KD)以进一步提高性能并设计出可以有效学习的KD变体来自多位老师。 通过结合MTL和KD,我们建议进行稳健的优化和蒸馏(ROaD)建模框架。 我们将ROaD与ELECTRA模型一起使用获得机器阅读理解和自然语言推理的最新结果。

论文链接:https://arxiv.org/pdf/2103.08809.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除