- 简介归因是大型语言模型(LLMs)中的关键概念,它使信息来源可控,并增强了LLMs的事实性。虽然现有方法利用开放式书籍问答来改善归因,但是事实上的数据集可能会奖励语言模型从其预训练数据中已经知道的事实,而不是归因。相比之下,反事实的开放式书籍问答数据集将进一步改善归因,因为答案只能基于给定的文本。我们提出了幻觉增强朗诵(HAR),通过利用LLMs中的幻觉来改善归因,从而创建反事实数据集。以开放式书籍问答为案例研究,我们证明了使用我们的反事实数据集微调的模型可以改善文本基础,从而提高开放式书籍问答的性能,F1分数最高可增加8.0%。我们的反事实数据集的性能显著优于使用人工注释的事实数据集,即使数据集和模型缩小4倍也是如此。我们观察到,改进在各种模型大小和数据集中都是一致的,包括多跳、生物医学和对抗性问答数据集。
- 图表
- 解决问题论文旨在通过利用LLMs中的幻觉来创建对抗性开放书问答数据集,以提高模型的归因能力。作者试图解决当前开放书问答数据集中存在的问题,即当现有数据集奖励模型记住其预训练数据中已知的事实时,模型很难进行正确的归因。这是否是一个新问题?
- 关键思路论文的关键思路是使用Hallucination Augmented Recitations (HAR)来创建对抗性开放书问答数据集,通过利用LLMs中的幻觉来提高模型的归因能力。相比当前领域的研究状况,这篇论文的思路是新的。
- 其它亮点论文设计了实验来验证其方法的有效性,并展示了使用对抗性数据集进行训练的模型在开放书问答任务中表现更好。作者使用了不同的数据集,包括多跳、生物医学和对抗性问答数据集,并展示了其方法的一致性和普适性。论文还开源了代码和数据集,为该领域的后续研究提供了基础。
- 在最近的相关研究中,有一些研究也关注于提高LLMs的归因能力。例如,一些研究使用开放书问答数据集来训练模型,并利用多跳推理来提高模型的表现。其中一些研究的论文标题包括《REALM: Retrieval-Augmented Language Model Pre-Training》和《Dense Passage Retrieval for Open-Domain Question Answering》。
沙发等你来抢
去评论
评论
沙发等你来抢