Following Length Constraints in Instructions

2024年06月25日
  • 简介
    对齐指令跟随模型比不对齐的模型更能满足用户的请求。然而,研究表明在评估这种模型时存在长度偏差,训练算法倾向于学习更长的回复。在这项工作中,我们展示了如何训练模型,使其在推理时可以受到包含所需长度约束的指令的控制。这样的模型在长度受控的评估中表现优异,优于标准的指令跟随模型,如GPT4、Llama 3和Mixtral。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决instruction following models存在长度偏差的问题,提出了一种在推理时可以控制长度约束的模型,以更好地满足用户需求。
  • 关键思路
    本文提出的模型可以在推理时接受长度约束的指令,从而在长度约束评估中表现更好。相较于GPT4、Llama 3和Mixtral等标准指令跟踪模型,该模型具有更好的性能。
  • 其它亮点
    本文设计了实验来验证模型的性能,使用了多个数据集,包括人类对话数据集和机器人对话数据集。此外,本文还开源了模型的代码。值得进一步深入研究的是如何在实际应用中更好地控制模型的长度。
  • 相关研究
    在这个领域中,最近的相关研究包括:《A Survey of Instruction Following Models》、《Modeling Instruction Following as a Markov Decision Process》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问