- 简介对于大型语言模型(LLMs),调整对自然语言指令的遵循是标准的程序,以便作为有用的AI助手。然而,我们观察到传统的对齐过程未能增强LLMs的事实准确性,并且常常导致生成更多的虚假事实(即幻觉)。本文研究如何使LLM对齐过程更具事实性,首先确定导致两个对齐步骤(有监督的微调(SFT)和强化学习(RL))中幻觉的因素。特别是,我们发现训练LLM接收新知识或不熟悉的文本可以鼓励幻觉。这使得SFT的准确性降低,因为它在人类标记的数据上进行训练,这些数据可能对LLM来说是新颖的。此外,标准RL中使用的奖励函数也可能鼓励幻觉,因为它引导LLM在不同的指令集上提供更有帮助的响应,通常更喜欢更长更详细的响应。基于这些观察结果,我们提出了“事实感知对齐”,包括事实感知的SFT和通过直接偏好优化的事实感知的RL。实验证明,我们提出的事实感知对齐引导LLMs输出更具事实性的响应,同时保持指令遵循能力。
- 图表
- 解决问题本论文旨在解决语言模型对于新知识和不熟悉文本的处理容易出现虚假事实的问题,提出了一种基于事实性的对齐方法,旨在使语言模型输出更加准确的回答。
- 关键思路该论文提出了一种基于事实性的对齐方法,主要包括事实性感知的SFT和直接偏好优化的事实性感知的RL,以使语言模型能够更加准确地回答问题。
- 其它亮点论文在实验中使用了不同的数据集和度量标准来评估模型的性能,并与其他方法进行了比较。论文还探讨了常规对齐方法中的虚假事实产生的原因,并提出了解决方案。论文还提供了开源代码。
- 与此相关的研究包括:《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《Improving Language Understanding by Generative Pre-Training》、《A Simple Method for Commonsense Reasoning》等。
沙发等你来抢
去评论
评论
沙发等你来抢