图片

机器翻译质量评估(Quality Estimation, QE)任务指在没有参考译文的情况下,仅依靠源语句(Source)评估机器翻译句子(MT)的质量。表1展示了QE词级别和句子级别任务。QE在机器翻译系统的应用中起到了重要的作用,例如QE可以通过过滤低质量MT或指示MT中错误的词语来提高人工译员改正MT的效率[1]、通过指导翻译系统解码过程来提高机器翻译质量[2]

1QE数据样例:词级别任务将每个词语标记为OKBADBAD表示该词语需要修改(表格中加粗字体并带有下划线的词语);句子级别任务需要预测HTER分数[3],表示该MT需要修改的比例。图片

然而,标注QE数据非常昂贵,稀缺的数据严重影响了QE模型性能。因此,预训练-微调策略被广泛地用于将平行语料中的双语知识迁移到QE任务中。Predictor-Estimator框架首先预训练一个称作Predictor的特征提取器,Predictor预训练时需要根据源语言句子和目标语言的上下文预测参考译文中的每个词。Cui等人[4]指出Predictor任务与QE任务的差异会阻碍双语知识的迁移。为了解决这个问题,他们设计了DirectQE框架。该框架首先生成伪QE数据(伪MT和对应的伪QE标记),然后直接使用伪数据预训练整个QE模型。为了生成带有可控错误的伪MTDirectQE使用条件的Masked Language Model替换平行语料中随机的目标端词语。替换的词语被标记BAD,替换的比例作为句子级别分数。

尽管DirectQE取得了出色的性能,我们注意到生成的伪数据中仍然包含噪音。虽然生成数据的伪标记准确,但是伪MT有时和真实MT存在明显差异。具体来说,伪MT中可能包含更多无意义的伪翻译错误,一个良好训练的翻译模型几乎不会生成这些错误。其次,伪MT的统计特征(例如长度分布、领域等)与真实MT不同。从迁移学习的视角来看,预训练分布与目标分布之间的差异会导致迁移性能下降[5]

为了解决这个问题,我们提出了基于课程学习[6]的去噪预训练框架CLQE。首先,我们定义了多种指标用来度量伪QE数据中包含噪音的程度。其中包括两种基于统计特征(句子长度和词频)的无模型指标和三种使用代理翻译模型估计真实QE数据分布的指标。然后,我们提出了一种基于模型能力的课程用来缓解伪数据噪音的负面影响。如果图1所示,CLQE从干净的数据上开始预训练,当模型能力增长时,课程逐渐将噪音更多的数据暴露给模型。通过这种方法,CLQE理论上为干净数据分配了更大的学习权重,并且能够最小化QE任务期望风险的上界[7]

 

阅读详情

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除