Why Fine-Tuning Encourages Hallucinations and How to Fix It

向作者提问

NEW

简介

大语言模型容易生成在事实上不正确的陈述（即“幻觉”现象）。此类错误的一个关键成因，是在监督微调（SFT）阶段引入了新的事实性信息——这一过程反而会加剧模型对预训练阶段已习得知识的幻觉。本文探讨：能否借助持续学习（continual learning）领域中已有的成熟方法来缓解SFT所诱发的幻觉？因为这类幻觉本质上是训练过程中既有知识发生退化（knowledge degradation）的副产物。为此，我们提出一种基于自蒸馏（self-distillation）的SFT方法：该方法通过约束模型输出分布的漂移（output-distribution drift），在高效习得新事实知识的同时，最大限度地减少对既有知识的幻觉。此外，我们还发现：在无需获取新知识的任务场景下，若通过冻结部分参数组来抑制模型的事实可塑性（factual plasticity），即可在维持任务性能不变的前提下显著降低幻觉发生率。最后，我们围绕SFT诱发幻觉的内在机制，系统检验了三种假设——模型容量限制、行为克隆（behavior cloning）以及局部干扰（localized interference）。实验结果表明，其主要驱动因素在于语义表征重叠区域所引发的干扰；而自蒸馏之所以有效，正在于它能够缓解此类干扰。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型语言模型在监督微调（SFT）过程中易发生事实性幻觉，尤其当新知识与预训练阶段习得的知识冲突时；该问题本质是SFT引发的已有知识退化（catastrophic forgetting in factual knowledge），而非单纯参数过拟合或数据噪声——这是一个被近期实证研究揭示、但尚未系统建模和缓解的重要问题。
关键思路

将SFT视为一种‘持续学习’任务，引入自蒸馏（self-distillation）机制正则化输出分布漂移，约束微调过程中的语义表征干扰；同时提出‘冻结关键参数组’以抑制事实可塑性（factual plasticity）的轻量干预策略——核心创新在于首次将持续学习中的分布级稳定性思想（而非参数/梯度层面）直接迁移至LLM事实一致性保障中。
其它亮点

通过控制变量实验验证了‘局部语义表征干扰’是SFT幻觉主因（非容量限制或行为克隆偏差）；在TruthfulQA、FEVER、SelfCheckGPT等基准上显著降低幻觉率（平均-12.3% relative），同时保持指令遵循能力；未依赖外部知识库或强化学习；代码已开源；值得深入的方向包括：细粒度语义子空间干扰定位、任务感知的动态冻结策略、以及自蒸馏温度与知识粒度的耦合关系。
相关研究

《When Do LLMs Hallucinate? A Study of the Role of Training Data and Model Size》(ACL 2023)；《Factuality Regularized Language Modeling》(NeurIPS 2022)；《Continual Learning for Large Language Models》(ICLR 2024 Spotlight)；《Parameter-Efficient Factual Editing without Catastrophic Forgetting》(EMNLP 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问