Aligning LLM Agents by Learning Latent Preference from User Edits

向作者提问

NEW

简介

我们研究了基于LLM的语言代理的交互式学习，该学习基于用户对代理输出所做的编辑。在诸如写作助手的典型场景中，用户与语言代理交互以生成响应，给定一个上下文，并可以选择编辑代理响应以根据其潜在偏好进行个性化，除了提高正确性。编辑反馈自然生成，因此是改善代理与用户偏好一致性的合适候选者，并可降低用户编辑的成本。我们提出了一个学习框架PRELUDE，该框架基于历史编辑数据推断用户潜在偏好的描述。推断出的用户偏好描述用于定义未来生成响应的提示。这避免了微调代理，这是昂贵的，难以随着用户数量的增加而扩展，并且甚至可能降低其在其他任务上的性能。此外，学习描述性偏好可以提高可解释性，使用户可以查看和修改所学习的偏好。然而，用户偏好可能很复杂，微妙，并且基于上下文而变化，这使得学习变得具有挑战性。为了解决这个问题，我们提出了一个名为CIPHER的简单而有效的算法，该算法利用LLM根据用户编辑推断给定上下文的用户偏好。在未来，CIPHER从历史记录中检索k个最接近的上下文中推断出的偏好，并形成响应生成的聚合偏好。我们介绍了两个交互式环境-摘要和电子邮件写作，并使用GPT-4模拟用户进行评估。在这两个任务中，CIPHER通过实现最低的编辑距离成本而优于几个基线算法，同时在LLM查询成本方面只有很小的开销。我们的分析报告显示，CIPHER学习的用户偏好与地面实况潜在偏好具有显著的相似性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过用户编辑反馈来学习LLM语言代理的互动学习，以提高代理与用户偏好的一致性，并降低用户编辑的成本。同时，论文试图解决用户偏好复杂、微妙且因上下文而异的问题。
关键思路

论文提出了一个名为PRELUDE的学习框架，通过历史编辑数据推断用户的潜在偏好描述，并用于生成未来的响应。论文还提出了一个名为CIPHER的简单而有效的算法，通过LLM推断给定上下文的用户偏好，并从历史上k个最接近的上下文中检索推断的偏好，形成响应生成的聚合偏好。
其它亮点

论文介绍了两个交互环境——摘要和电子邮件写作，并使用GPT-4模拟用户进行评估。在两个任务中，CIPHER通过实现最低的编辑距离成本而优于几个基线，同时在LLM查询成本方面只有很小的开销。论文的分析报告显示，CIPHER学习的用户偏好与潜在偏好存在显着的相似性。
相关研究

在这个领域中，最近的相关研究包括：《A Survey of Interactive Machine Learning》、《Interactive Learning》、《Interactive Machine Learning: A Taxonomy》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问