The Fine-Tuning Paradox: Boosting Translation Quality Without Sacrificing LLM Abilities

2024年05月30日
  • 简介
    我们对LLaMA和Falcon系列模型进行了广泛的翻译评估,模型大小范围从70亿到650亿个参数不等。我们的结果表明,虽然微调可以提高LLMs的总体翻译质量,但会导致一些能力下降,特别是在形式化引导、通过少量示例进行技术翻译和执行文档级翻译方面。另一方面,我们观察到在平行数据上微调后,模型产生了更少的字面翻译。我们表明,通过将单语数据作为微调数据的一部分,我们可以同时保持这些能力并增强总体翻译质量。我们的发现强调了需要保留LLMs对机器翻译的益处的微调策略。
  • 图表
  • 解决问题
    论文探讨了在对大型语言模型进行微调以进行机器翻译时,如何保留其原有的优点并提高翻译质量的问题。
  • 关键思路
    论文发现,虽然微调可以提高大型语言模型的翻译质量,但会导致一些原有的优点下降,如形式化导向、技术翻译和文档级翻译能力。通过将单语数据纳入微调数据中,可以保留这些优点并提高翻译质量。
  • 其它亮点
    论文对LLaMA和Falcon系列模型进行了广泛的翻译评估,发现微调可以提高翻译质量,但也会导致一些优点下降。实验使用了不同大小的模型和数据集,并公开了代码。值得深入研究的是如何设计更好的微调策略。
  • 相关研究
    最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《On the Limits of Cross-lingual Transfer with Limited Data》。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论