Better Alignment with Instruction Back-and-Forth Translation

2024年08月08日
  • 简介
    我们提出了一种新方法,即指令来回翻译,用于构建基于世界知识的高质量合成数据,以对齐大型语言模型(LLMs)。给定来自网络语料库的文档,我们使用Li等人(2023a)提出的回译方法生成和筛选合成指令,并根据初始文档进一步改写响应以提高其质量。使用生成的(回译指令,改写响应)对进行微调,比使用其他常见的指令数据集如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct,在AlpacaEval上获得更高的胜率。我们还证明,使用LLM重写响应优于直接蒸馏,而两个生成的文本分布在嵌入空间中有显著的区别。进一步分析表明,我们的回译指令比其他合成指令来源更高质量,而我们的响应比蒸馏获得的响应更多样化和复杂。总体而言,指令来回翻译结合了网络上发现的信息多样性和数量,同时确保响应的质量,这对于有效对齐是必要的。
  • 图表
  • 解决问题
    提出了一种新的方法,instruction back-and-forth translation,用于构建高质量的合成数据,以对齐大型语言模型(LLMs)。
  • 关键思路
    通过使用来自网络语料库的文档,生成和筛选合成指令,然后进行回译和重写响应,以生成高质量的合成数据,用于训练LLMs。
  • 其它亮点
    实验结果表明,instruction back-and-forth translation方法比常见的instruction数据集(如Humpback、ShareGPT、Open Orca、Alpaca-GPT4和Self-instruct)更有效。此外,使用LLM重写响应比直接蒸馏更好,生成的文本分布在嵌入空间中显示出明显的区别。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如Li等人的回译方法(2023a)和直接蒸馏方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论