- 简介我们研究了基于LLM的语言代理的交互式学习,该学习基于用户对代理输出所做的编辑。在诸如写作助手的典型场景中,用户与语言代理交互以生成响应,给定一个上下文,并可以选择编辑代理响应以根据其潜在偏好进行个性化,除了提高正确性。编辑反馈自然生成,因此是改善代理与用户偏好一致性的合适候选者,并可降低用户编辑的成本。我们提出了一个学习框架PRELUDE,该框架基于历史编辑数据推断用户潜在偏好的描述。推断出的用户偏好描述用于定义未来生成响应的提示。这避免了微调代理,这是昂贵的,难以随着用户数量的增加而扩展,并且甚至可能降低其在其他任务上的性能。此外,学习描述性偏好可以提高可解释性,使用户可以查看和修改所学习的偏好。然而,用户偏好可能很复杂,微妙,并且基于上下文而变化,这使得学习变得具有挑战性。为了解决这个问题,我们提出了一个名为CIPHER的简单而有效的算法,该算法利用LLM根据用户编辑推断给定上下文的用户偏好。在未来,CIPHER从历史记录中检索k个最接近的上下文中推断出的偏好,并形成响应生成的聚合偏好。我们介绍了两个交互式环境-摘要和电子邮件写作,并使用GPT-4模拟用户进行评估。在这两个任务中,CIPHER通过实现最低的编辑距离成本而优于几个基线算法,同时在LLM查询成本方面只有很小的开销。我们的分析报告显示,CIPHER学习的用户偏好与地面实况潜在偏好具有显著的相似性。
-
- 图表
- 解决问题论文旨在通过用户编辑反馈来学习LLM语言代理的互动学习,以提高代理与用户偏好的一致性,并降低用户编辑的成本。同时,论文试图解决用户偏好复杂、微妙且因上下文而异的问题。
- 关键思路论文提出了一个名为PRELUDE的学习框架,通过历史编辑数据推断用户的潜在偏好描述,并用于生成未来的响应。论文还提出了一个名为CIPHER的简单而有效的算法,通过LLM推断给定上下文的用户偏好,并从历史上k个最接近的上下文中检索推断的偏好,形成响应生成的聚合偏好。
- 其它亮点论文介绍了两个交互环境——摘要和电子邮件写作,并使用GPT-4模拟用户进行评估。在两个任务中,CIPHER通过实现最低的编辑距离成本而优于几个基线,同时在LLM查询成本方面只有很小的开销。论文的分析报告显示,CIPHER学习的用户偏好与潜在偏好存在显着的相似性。
- 在这个领域中,最近的相关研究包括:《A Survey of Interactive Machine Learning》、《Interactive Learning》、《Interactive Machine Learning: A Taxonomy》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流