- 简介现有的指令跟随研究主要集中在简单指令和短响应的任务上。在本研究中,我们探索了多限制指令跟随,以生成长篇文本。我们创建了一个包含20K篇人工撰写的长篇文本和LLM生成的包含多个复杂限制的反向翻译指令的数据集Suri。由于收集人类偏好判断的挑战过大,因此在我们的设置中,像DPO这样的偏好调整算法是不可行的。因此,我们提出了基于ORPO算法的指令ORPO(I-ORPO)对齐方法。I-ORPO不是从不喜欢的响应中获得负反馈,而是从由LLM生成的合成污染指令中获得负反馈。利用Suri,我们在Mistral-7b-Instruct-v0.2上进行了监督和I-ORPO微调。生成的模型Suri-SFT和Suri-I-ORPO生成的文本长度显著增加(约5K个标记),而质量没有明显的恶化。我们的人类评估表明,虽然SFT和I-ORPO模型都满足大多数限制,但Suri-I-ORPO生成的文本通常因为其连贯和信息丰富的限制融入而更受欢迎。我们在https://github.com/chtmp223/suri发布了我们的代码。
-
- 图表
- 解决问题论文旨在探索多限制指令生成长文本的任务,提出了一种基于ORPO算法的对齐方法I-ORPO,解决了人类偏好无法用于长文本的问题。
- 关键思路论文提出了一种基于ORPO算法的对齐方法I-ORPO,通过使用LLM生成的合成指令获取负反馈,从而进行优化。
- 其它亮点论文创建了Suri数据集,包含20K个人类编写的长文本和LLM生成的多限制指令。论文提出的Suri-SFT和Suri-I-ORPO模型可以生成长度显著大于基础模型的文本,而且质量没有明显下降。人类评估表明,Suri-I-ORPO模型通常更受欢迎。
- 最近相关的研究包括基于强化学习的指令跟踪和基于生成对抗网络的指令生成。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流