- 简介本文研究了大型语言模型(LLMs)在响应生成过程中表现出超出其知识边界的行为,从而导致幻觉产生。之前的学习方法主要集中在检测知识边界和通过实例级反馈微调模型,但由于离线数据采样和粗粒度反馈,这些方法存在信号不准确的问题。本文提出了一种名为“幻觉减轻的强化学习(RLFH)”的在线细粒度反馈强化学习方法。与之前的学习方法不同,RLFH能够使LLMs探索其内部知识的边界,并提供关于这些探索的在线、细粒度反馈。为了构建可靠的生成行为的细粒度反馈,RLFH将大型模型的结果分解为原子事实,提供语句级评估信号,并将信号追溯到原始响应的标记。最后,RLFH采用在线强化算法,利用这些标记级别的奖励来调整模型行为以减轻幻觉。为了有效地进行在线优化,RLFH还引入了基于LLM的事实评估框架,以验证原子事实的真实性和有用性,无需人工干预。在HotpotQA、SQuADv2和传记基准测试中的实验表明,RLFH可以平衡LLMs在生成过程中使用内部知识的程度,从而消除LLMs的幻觉行为。
-
- 图表
- 解决问题解决大型语言模型中幻觉问题,通过fine-grained feedback-based online reinforcement learning方法来实现。
- 关键思路RLFH方法能够探索语言模型内部知识的边界,并提供fine-grained feedback,通过将LLMs的输出分解为原子事实,提供语句级别的评估信号,并将信号追溯到原始响应的标记。最后,RLFH采用在线强化学习算法来调整模型行为以实现幻觉缓解。
- 其它亮点RLFH引入了基于LLMs的事实评估框架,以验证原子事实的真实性和有用性,无需人工干预。实验结果表明,RLFH能够在HotpotQA、SQuADv2和Biography基准测试上实现幻觉缓解。
- 相关研究包括基于知识的方法和基于学习的方法。前者通过向模型提供外部知识来解决幻觉问题,后者通过在模型内部探索知识边界来解决问题。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流