Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

2025年03月09日
  • 简介
    神经机器翻译(NMT)领域随着大语言模型(LLMs)的出现而发生了变化。近期自然语言处理(NLP)领域的许多研究重点在于使用单一预训练的Transformer解码器来建模机器翻译及其他多种问题,而早期NMT模型中常用的编码器-解码器架构则相对较少受到关注。在本文中,我们通过结合大语言模型与神经机器翻译技术,探索一种通用、高效且易于优化的翻译模型。我们将大语言模型应用于NMT的编码部分,同时保持NMT解码器不变。此外,我们还开发了使大语言模型与NMT解码器更好地协作的方法。进一步地,我们构建了一个包含多任务的新数据集,以评估机器翻译系统在各种任务中的泛化能力。在WMT数据集和我们自建的数据集上的实验结果表明,我们的方法在翻译质量上达到了与多种基线模型相当甚至更优的水平,同时实现了2.4至6.5倍的推理加速,并将KV缓存的内存占用减少了75%。该方法还在多种与翻译相关的任务中展现了强大的泛化性能。
  • 图表
  • 解决问题
    该论文试图通过结合大型语言模型(LLMs)和神经机器翻译(NMT)来改进机器翻译系统。具体来说,它探索了如何利用LLMs进行编码,同时保持NMT解码器不变,以实现更高效、通用且易于优化的翻译模型。这并不是一个全新的问题,但它是对现有研究的一个重要推进,尤其是在当前许多NLP任务转向使用预训练Transformer解码器的情况下。
  • 关键思路
    关键思路在于将LLMs的强大表示能力引入到NMT的编码阶段,而解码部分则继续沿用传统的NMT架构。这种混合方法不仅提高了翻译质量,还在推理速度和内存使用上取得了显著的改进。相比目前主要关注单一预训练Transformer解码器的研究趋势,此论文提供了一种新颖且有效的解决方案,能够更好地适应多任务环境。
  • 其它亮点
    论文的主要亮点包括:1) 实现了2.4至6.5倍的推理加速以及75%的KV缓存内存减少;2) 构建了一个包含多种任务的新数据集,用于评估模型在不同任务上的泛化能力;3) 在WMT等标准测试集上达到了与基线模型相当甚至更好的翻译效果;4) 提出了使LLMs更好地适配NMT解码器的方法。此外,作者还开源了代码和新构建的数据集,为后续研究提供了宝贵的资源。
  • 相关研究
    近期相关研究包括《Exploring the Limits of Transfer Learning for Low-Resource Neural Machine Translation》、《Beyond Back-Translation: Leveraging Unlabeled Target Language Data for Improved Neural Machine Translation》和《Adapting Pre-trained Language Models to Neural Machine Translation via Adapter Modules》。这些研究都在尝试不同的方式来增强或调整现有的NLP模型,以提高特定任务如机器翻译的表现。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论