Following Length Constraints in Instructions

NEW

简介

对齐指令跟随模型比不对齐的模型更能满足用户的请求。然而，研究表明在评估这种模型时存在长度偏差，训练算法倾向于学习更长的回复。在这项工作中，我们展示了如何训练模型，使其在推理时可以受到包含所需长度约束的指令的控制。这样的模型在长度受控的评估中表现优异，优于标准的指令跟随模型，如GPT4、Llama 3和Mixtral。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决instruction following models存在长度偏差的问题，提出了一种在推理时可以控制长度约束的模型，以更好地满足用户需求。
关键思路

本文提出的模型可以在推理时接受长度约束的指令，从而在长度约束评估中表现更好。相较于GPT4、Llama 3和Mixtral等标准指令跟踪模型，该模型具有更好的性能。
其它亮点

本文设计了实验来验证模型的性能，使用了多个数据集，包括人类对话数据集和机器人对话数据集。此外，本文还开源了模型的代码。值得进一步深入研究的是如何在实际应用中更好地控制模型的长度。
相关研究

在这个领域中，最近的相关研究包括：《A Survey of Instruction Following Models》、《Modeling Instruction Following as a Markov Decision Process》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问