Fine-tuning Language Models for Factuality

简介

大型预训练语言模型(LLM)的流畅性和创造力已经广泛应用，有时甚至作为传统搜索引擎的替代品。然而，语言模型容易产生令人信服但事实不准确的错误，通常称为“幻觉”。这些错误可能会无意中传播错误信息或有害地延续误解。此外，手动事实核查模型响应是一项耗时的过程，使得人工事实标签的获取变得昂贵。在这项工作中，我们通过不需要人工标注的方式，对语言模型进行微调，使其更具事实性，并针对比过去更开放的生成设置进行优化。我们利用了自然语言处理(NLP)中的两个关键创新。首先，几个最近的研究提出了通过测量与外部知识库或简单的大型模型的置信度得出开放式文本事实性的方法。其次，直接偏好优化算法使得在除了监督模仿之外的目标上对语言模型进行微调变得简单，使用可能模型响应的偏好排名。我们展示了从自动生成的事实偏好排名中学习，无论是通过现有检索系统还是我们的新型无检索方法生成的，都显著提高了Llama-2在保留主题上的事实性(生成的主张正确的百分比) ，相比于针对事实性的RLHF或解码策略。在7B规模上，与Llama-2-chat相比，我们观察到在生成传记和回答医学问题时事实错误率分别降低了58%和40%。
图表
解决问题

本论文试图通过fine-tune语言模型来提高其准确性，避免生成虚假的claim，以解决自然语言生成中的factuality问题。同时，为了避免人工标注的费用，论文提出了使用自动生成的factuality preference rankings进行学习的方法。
关键思路

论文提出了使用自动生成的factuality preference rankings进行学习的方法，通过对比不同生成结果的factuality，优化语言模型的生成结果，从而提高其准确性。
其它亮点

论文使用了两个关键的NLP技术：外部知识库的一致性和直接优化偏好算法，来进行fine-tune。实验结果表明，使用自动生成的factuality preference rankings进行学习的方法，可以显著提高语言模型的准确性。
相关研究

最近相关研究包括：1. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources. 2. Fact-checking by Jointly Modeling Inference and Evidence with Neural Networks. 3. Fine-tuning Language Models from Human Preferences.

Fine-tuning Language Models for Factuality

评论