Aligning LLM Agents by Learning Latent Preference from User Edits

简介

我们研究基于用户编辑的语言代理互动学习。在像写作助手这样的典型设置中，用户与语言代理交互以生成给定上下文的响应，并可以选择编辑代理响应以根据其潜在偏好进行个性化，同时提高正确性。编辑反馈自然生成，因此是改善代理与用户偏好一致性以及降低用户编辑成本的合适候选方法。我们提出了一个学习框架PRELUDE，它基于历史编辑数据推断用户潜在偏好的描述，并使用它来定义驱动未来响应生成的提示策略。这避免了对代理进行微调，这是昂贵的，难以随着用户数量的增加而扩展，并且甚至可能降低其在其他任务上的性能。此外，学习描述性偏好可以提高可解释性，使用户能够查看和修改学习到的偏好。然而，用户偏好可能很复杂，并且可能因上下文而异，这使得学习变得具有挑战性。为了解决这个问题，我们提出了一个名为CIPHER的简单而有效的算法，它利用大型语言模型（LLM）根据用户编辑推断给定上下文的用户偏好。在未来，CIPHER从历史记录中检索推断的偏好，并形成用于响应生成的聚合偏好。我们引入了两个交互环境——摘要和电子邮件写作，使用GPT-4模拟用户进行评估。我们与直接检索用户编辑但不学习描述性偏好的算法以及学习上下文不可知偏好的算法进行比较。在两个任务上，CIPHER实现了最低的编辑距离成本，并学习到显示与真实偏好显著相似的偏好。
图表
解决问题

论文旨在研究基于用户编辑的交互式语言代理的学习，以提高代理与用户偏好的一致性和减少用户编辑的成本。
关键思路

PRELUDE框架推断用户的潜在偏好，并使用它来定义提示策略，从而驱动未来的响应生成。CIPHER算法利用大型语言模型推断用户对给定上下文的偏好，从历史中检索推断出的偏好，并形成用于响应生成的聚合偏好。
其它亮点

论文提出了PRELUDE框架和CIPHER算法，分别用于推断用户偏好和生成响应。在总结和电子邮件写作两个任务上进行了评估，并与其他算法进行了比较。实验结果表明，CIPHER在编辑距离成本方面表现最好，并且学习的偏好与真实偏好具有显著的相似性。
相关研究

最近的相关研究包括：1）基于用户编辑的交互式学习，2）基于大型语言模型的文本生成，3）基于用户偏好的文本生成。

Aligning LLM Agents by Learning Latent Preference from User Edits

评论