TARS: MinMax Token-Adaptive Preference Strategy for Hallucination Reduction in MLLMs

2025年07月29日
  • 简介
    多模态大语言模型(MLLMs)能够实现视觉-语言推理,但其生成的结果往往虽然看似合理,却在事实或视觉信息上存在错误,从而影响了模型的可靠性。直接偏好优化(DPO)是一种常见的策略,通过将模型输出与人类偏好对齐来纠正这些幻觉问题。然而,现有的DPO方法通常将与偏好相关的幻觉信息视为固定目标,在训练过程中依赖静态的监督信号。这种方法容易过度拟合偏好数据中的表面语言特征,导致模型在分布上缺乏灵活性,并形成虚假的相关性,进而削弱了对因果相关视觉信息的准确理解。为了解决这一问题,我们提出了TARS,一种基于token自适应偏好的优化策略,该策略将DPO重新建模为一个极小化极大(min-max)优化问题。TARS在语义约束下最大化token级别的分布偏移,以模拟对齐过程中的不确定性,同时在这些受控扰动下最小化预期的偏好损失。这种联合目标在保持因果推理能力的同时,有效缓解了对偏好模式的过拟合,从而减少了多模态推理中的幻觉现象。我们在多个幻觉评估基准上对TARS进行了评估,结果表明其表现始终优异。仅使用4.8k条偏好样本且无需专家反馈的情况下,TARS将幻觉率从26.4%降低至13.2%,认知值(cognition value)也从2.5下降至0.4。在多个关键指标上,TARS优于标准DPO,并与GPT-4o的表现相当。
  • 图表
  • 解决问题
    论文旨在解决多模态大语言模型(MLLMs)在视觉-语言推理任务中生成看似合理但事实错误或视觉无法支撑的输出的问题,即减少模型的‘幻觉’现象。这是一个在多模态AI系统中广泛存在的问题,尤其是在缺乏足够视觉基础支撑的情况下。
  • 关键思路
    论文提出了一种名为TARS的新方法,该方法将直接偏好优化(DPO)重新建模为最小-最大优化问题。TARS在token级别引入分布偏移,并在语义约束下最大化这种偏移以模拟对齐的不确定性,同时最小化在这些扰动下的偏好损失。相比传统的DPO方法,TARS更具鲁棒性,减少了对偏好数据中浅层语言线索的过拟合。
  • 其它亮点
    1. 实验结果显示,TARS使用仅4.8k个偏好样本且无需专家反馈的情况下,将幻觉率从26.4%降低至13.2%,认知值从2.5降至0.4。 2. TARS在多个幻觉基准测试中表现优异,其性能与GPT-4o相当。 3. 论文通过token级的分布偏移增强模型的因果基础,避免了传统DPO方法中的过拟合并提升泛化能力。 4. 实验设计清晰,验证了TARS在多个指标上的有效性,但未提及是否开源代码。
  • 相关研究
    1. Rafailov et al., "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" (2023) 2. Ouyang et al., "Training language models to follow instructions with human feedback" (2022) 3. Wang et al., "Self-consistency Improves Hallucination Evaluation in Vision-Language Models" (2023) 4. Liu et al., "Visual Instruction Tuning: A Survey on Vision-Language Foundation Models" (2023)
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论