Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

简介

语言模型旨在模拟许多人的集体声音，因此生成的输出不特定于任何一个人。通过监督微调或RLHF可以将LLM从通用输出中引导出来，但对于新的特定任务，这需要使用过于庞大的数据集。我们认为，通过利用非常少量（<10）的演示作为反馈，可以将LLM对齐到特定设置中。我们的方法——演示迭代任务优化（DITTO），通过使用在线模仿学习的思想，将LLM的输出直接对齐到用户的演示行为上。DITTO通过将用户的演示视为优于LLM及其中间检查点的输出，便可以廉价地生成在线比较数据。我们评估了DITTO在新闻文章、电子邮件和博客文章等领域中学习精细风格和任务对齐的能力。此外，我们进行了一项用户研究，从参与者（N=16）那里收集了各种演示。在我们的基准测试和用户研究中，我们发现DITTO的胜率平均超过few-shot提示、监督微调和其他自我对弈方法19个百分点。通过直接使用演示作为反馈，DITTO提供了一种有效定制LLM的新方法。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在解决如何通过少量的演示来对语言模型进行定制化的问题，以达到更好的输出效果。
关键思路

文章提出了一种名为Demonstration ITerated Task Optimization (DITTO)的方法，通过在线模仿学习的思想，将用户的演示作为优于LLM和其中间检查点输出的反馈，从而实现对LLM输出的调整。
其它亮点

实验结果表明，DITTO的成功率平均比few-shot prompting、监督微调和其他自我对弈方法高出19%。此外，本文还进行了用户研究，收集了16个参与者的演示，并在新闻文章、电子邮件和博客文章等领域进行了细粒度风格和任务对齐的评估。
相关研究

最近的相关研究包括使用监督学习和自我对弈方法进行的语言模型微调，以及使用演示进行的在线模仿学习。

Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

提问交流

提问交流