Banishing LLM Hallucinations Requires Rethinking Generalization

简介

尽管大型语言模型（LLM）具有强大的聊天、编码和推理能力，但它们经常出现幻觉。传统的智慧认为，幻觉是创造力和事实之间平衡的结果，可以通过将LLM与外部知识源联系起来来缓解，但无法消除。通过广泛的系统实验，我们展示了这些传统方法无法解释LLM在实践中为什么会产生幻觉。具体而言，我们展示了增加了大量记忆专家混合器（MoME）的LLM可以轻松地记忆大量随机数字数据集。我们通过理论构建证实了这些实验结果，表明当训练损失高于阈值时（通常在训练互联网规模数据时发生），简单的神经网络训练以预测下一个标记时会出现幻觉。我们通过与传统的检索方法进行比较来解释我们的发现，以缓解幻觉。我们利用这些发现设计了第一代模型Lamini-1，用于消除幻觉，该模型将事实存储在数百万个记忆专家的大型混合器中，并进行动态检索。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决LLMs在实践中出现幻觉的问题，并探索传统方法无法解释幻觉现象的原因。
关键思路

论文通过实验和理论构建展示，简单神经网络在训练损失超过一定阈值时容易出现幻觉。作者提出了一种基于大规模MoME的模型Lamini-1来消除幻觉。
其它亮点

论文展示了传统方法无法解释LLMs幻觉的原因，提出了一种新的基于MoME的模型来消除幻觉。作者通过实验和理论构建证明了简单神经网络在训练损失超过一定阈值时容易出现幻觉。论文使用了大规模数据集和开源代码。
相关研究

近期相关研究包括《GPT-3》、《XLNet》和《Turing-NLG》等。

Banishing LLM Hallucinations Requires Rethinking Generalization

提问交流

提问交流