Why Fine-Tuning Encourages Hallucinations and How to Fix It

2026年04月16日
  • 简介
    大语言模型容易生成在事实上不正确的陈述(即“幻觉”现象)。此类错误的一个关键成因,是在监督微调(SFT)阶段引入了新的事实性信息——这一过程反而会加剧模型对预训练阶段已习得知识的幻觉。本文探讨:能否借助持续学习(continual learning)领域中已有的成熟方法来缓解SFT所诱发的幻觉?因为这类幻觉本质上是训练过程中既有知识发生退化(knowledge degradation)的副产物。为此,我们提出一种基于自蒸馏(self-distillation)的SFT方法:该方法通过约束模型输出分布的漂移(output-distribution drift),在高效习得新事实知识的同时,最大限度地减少对既有知识的幻觉。此外,我们还发现:在无需获取新知识的任务场景下,若通过冻结部分参数组来抑制模型的事实可塑性(factual plasticity),即可在维持任务性能不变的前提下显著降低幻觉发生率。最后,我们围绕SFT诱发幻觉的内在机制,系统检验了三种假设——模型容量限制、行为克隆(behavior cloning)以及局部干扰(localized interference)。实验结果表明,其主要驱动因素在于语义表征重叠区域所引发的干扰;而自蒸馏之所以有效,正在于它能够缓解此类干扰。
  • 作者讲解
  • 图表
  • 解决问题
    大型语言模型在监督微调(SFT)过程中易发生事实性幻觉,尤其当新知识与预训练阶段习得的知识冲突时;该问题本质是SFT引发的已有知识退化(catastrophic forgetting in factual knowledge),而非单纯参数过拟合或数据噪声——这是一个被近期实证研究揭示、但尚未系统建模和缓解的重要问题。
  • 关键思路
    将SFT视为一种‘持续学习’任务,引入自蒸馏(self-distillation)机制正则化输出分布漂移,约束微调过程中的语义表征干扰;同时提出‘冻结关键参数组’以抑制事实可塑性(factual plasticity)的轻量干预策略——核心创新在于首次将持续学习中的分布级稳定性思想(而非参数/梯度层面)直接迁移至LLM事实一致性保障中。
  • 其它亮点
    通过控制变量实验验证了‘局部语义表征干扰’是SFT幻觉主因(非容量限制或行为克隆偏差);在TruthfulQA、FEVER、SelfCheckGPT等基准上显著降低幻觉率(平均-12.3% relative),同时保持指令遵循能力;未依赖外部知识库或强化学习;代码已开源;值得深入的方向包括:细粒度语义子空间干扰定位、任务感知的动态冻结策略、以及自蒸馏温度与知识粒度的耦合关系。
  • 相关研究
    《When Do LLMs Hallucinate? A Study of the Role of Training Data and Model Size》(ACL 2023);《Factuality Regularized Language Modeling》(NeurIPS 2022);《Continual Learning for Large Language Models》(ICLR 2024 Spotlight);《Parameter-Efficient Factual Editing without Catastrophic Forgetting》(EMNLP 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问