Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

简介

中等规模的大型语言模型（LLMs）——具有7B或13B参数的模型——展现出有前途的机器翻译（MT）性能。然而，即使是表现最佳的13B LLM翻译模型，如ALMA，也无法与最先进的传统编码器-解码器翻译模型或更大规模的LLMs（如GPT-4）相匹配。在这项研究中，我们弥合了这种性能差距。我们首先评估了监督微调LLMs在MT任务中的缺点，强调了参考数据中存在的质量问题，尽管这些数据是由人类生成的。然后，与模仿参考翻译的SFT相反，我们引入了对比偏好优化（CPO），这是一种新颖的方法，它训练模型避免生成足够但不完美的翻译。将CPO应用于仅具有22K平行句子和12M参数的ALMA模型可以显著提高翻译性能。所得到的模型称为ALMA-R，可以在WMT'21、WMT'22和WMT'23测试数据集上与WMT比赛的获胜者和GPT-4的性能匹配或超越。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决使用中等规模的大语言模型进行机器翻译时的性能问题，并尝试超越传统编码器-解码器模型和更大规模的语言模型。
关键思路

本文提出了一种新的训练方法Contrastive Preference Optimization (CPO)，通过避免生成仅达到但不完美的翻译来训练模型，从而提高了中等规模的大语言模型的翻译性能。
其它亮点

本文使用22K个平行语料和12M个参数的ALMA模型进行训练，并在WMT'21、WMT'22和WMT'23测试数据集上展现了与WMT竞赛获胜者和GPT-4相当或超越的性能。本文提出的CPO方法可以在翻译任务中提高中等规模的大语言模型的性能。
相关研究

最近的相关研究包括使用大规模预训练模型进行机器翻译的研究，如GPT-4。

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

提问交流

提问交流