- 简介代码切换是一种数据增强方案,将多种语言的单词混合到源语言文本中。它通过对齐跨语境上下文词表示,取得了可观的跨语言传递任务的泛化性能。然而,不受控制和过度替换的代码切换会增加脏数据样本到模型训练中。换句话说,过多的代码切换文本样本会对模型的跨语言传递能力产生负面影响。为此,我们提出了一种渐进式代码切换(PCS)方法,逐渐生成适度困难的代码切换示例,供模型从易到难进行区分。这个想法是逐步融合先前学习的多语言知识,使用更容易的代码切换数据来指导模型在接下来更难的代码切换数据上进行优化。具体而言,我们首先设计了一个难度测量器,根据单词相关性评分来衡量替换每个单词的影响。然后,一个代码切换器通过可控的温度变量生成逐渐增加难度的代码切换数据。此外,一个训练调度程序决定何时对模型进行更难的代码切换数据的采样。实验证明,我们的模型在10种语言的三个不同的零-shot跨语言传递任务上取得了最先进的结果。
-
- 图表
- 解决问题本论文旨在解决代码切换在跨语言转移任务中数据增强可能导致模型训练的负面影响的问题。
- 关键思路论文提出了一种渐进式代码切换(PCS)方法,通过逐渐增加难度的代码切换数据,引导模型逐步学习多语言知识,以提高跨语言转移任务的性能。
- 其它亮点论文设计了一个难度测量器来测量每个单词替换对句子的影响,然后通过可控的温度变量生成逐渐增加难度的代码切换数据,最后通过训练调度程序决定何时采样更难的代码切换数据进行模型训练。实验结果表明,该模型在三个不同的零样本跨语言转移任务上取得了最先进的结果。
- 在最近的相关研究中,还有一些类似的数据增强方法被提出,如EDA和BT等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流