KaPO: Knowledge-aware Preference Optimization for Controllable Knowledge Selection in Retrieval-Augmented Language Models

2024年08月06日
  • 简介
    通过整合外部知识,检索增强生成(Retrieval-Augmented Generation,RAG)已成为缓解大型语言模型(LLMs)在处理知识密集型任务时遇到的幻觉问题的有效策略。然而,在将外部非参数支持证据与内部参数知识整合的过程中,不可避免地会出现知识冲突,导致模型的响应混乱。为了增强LLMs在各种情境下的知识选择能力,一些研究聚焦于通过指导调整它们的行为模式。然而,由于缺乏明确的负面信号和比较目标,以这种方式微调的模型仍可能在复杂和现实的检索场景中表现出不良行为。因此,我们提出了一种名为知识感知偏好优化(Knowledge-aware Preference Optimization,KaPO)的方法,旨在实现在真实的检索场景中可控的知识选择。具体而言,我们探索并模拟不同上下文组合中的错误类型,并学习如何通过偏好优化方法避免这些负面信号。同时,通过调整响应长度和代表不同行为模式的偏好数据比例之间的平衡,我们以平衡的方式增强了LLMs的遵从能力和噪声鲁棒性。实验结果表明,KaPO在处理知识冲突方面的表现优于以前的方法超过37%,同时还在各种分布外数据集上展现出稳健的泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决大型语言模型在处理知识密集型任务时遇到的幻觉问题,即如何在整合外部知识的同时避免知识冲突引起的混乱。
  • 关键思路
    本文提出了一种名为KaPO的知识感知偏好优化方法,旨在实现在实际检索场景下可控的知识选择。通过探索和模拟多种上下文组合中的错误类型,并通过偏好优化方法学习如何避免这些负面信号,同时通过调整响应长度和代表不同行为模式的偏好数据比例的平衡,以平衡的方式增强LLMs的粘附能力和噪声鲁棒性。
  • 其它亮点
    本文的实验结果表明,KaPO相对于处理知识冲突的先前方法提高了超过37%,同时在各种分布之外的数据集中表现出了强大的泛化能力。
  • 相关研究
    最近的相关研究包括《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问