MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation

2024年03月14日
  • 简介
    大型语言模型(LLM)在机器翻译(MT)领域展示了其强大的能力,但它们面临着高计算成本和延迟的问题。因此,将翻译知识从巨型LLM转移到中等规模的机器翻译模型是一个有前途的研究方向。然而,传统的知识蒸馏方法没有考虑到学生和教师模型的能力,因此会重复教授学生已经学过的知识,无法扩展到新领域和知识。本文提出了一个名为MT-Patcher的框架,以选择性、全面和积极的方式将知识从LLMs转移到现有的MT模型中。考虑到学生MT模型的当前翻译能力,我们只识别和纠正它们的翻译错误,而不是将整个翻译从教师中蒸馏出来。利用LLMs的强大语言能力,我们指导LLM教师综合多样的上下文并预测学生可能出现的错误。在翻译特定语言现象和一般MT基准测试方面的实验结果表明,对学生MT模型进行约10%的微调可以实现与传统知识蒸馏方法相当的结果,并且合成的潜在错误和多样的上下文进一步提高了对未见过的上下文和单词的翻译表现。
  • 作者讲解
  • 图表
  • 解决问题
    如何将大型语言模型的翻译知识转移到中型机器翻译模型中,以提高翻译效率?
  • 关键思路
    提出一种名为MT-Patcher的框架,通过选择性、全面性和积极性的方式,将大型语言模型的知识传递给中型机器翻译模型,并且只纠正其翻译错误,而不是将整个翻译过程传递给学生模型。
  • 其它亮点
    实验结果表明,通过在10%的样本上对学生模型进行微调,可以实现与传统知识蒸馏方法相当的结果,并且合成的潜在错误和多样化的上下文进一步提高了对未知上下文和单词的翻译表现。
  • 相关研究
    相关研究包括知识蒸馏方法和其他将大型语言模型的知识转移到中型模型的方法,例如TinyBERT和DistilBERT等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问