Aligning Large Multi-Modal Model with Robust Instruction Tuning
Fuxiao Liu, Kevin Lin, Linjie Li, Jianfeng Wang, Yaser Yacoob, Lijuan Wang
[University of Maryland & Microsoft Corporation]
将大型多模态模型与鲁棒指令微调对齐
-
动机:尽管在多模态任务中取得了令人瞩目的进展,但当前的大型多模态模型(LMM)容易产生与相关图像和人类指令不一致的幻觉描述。本文通过引入首个大规模且多样化的视觉指令微调数据集,即大规模鲁棒视觉(LRV)-指令,来解决该问题。 -
方法:数据集由GPT4生成的120k视觉指令组成,涵盖了16个视觉和语言任务,包括开放式的指令和答案。与主要关注正面指令样本的现有研究不同,设计LRV-Instruction包括正面和负面指令,以实现更鲁棒的视觉指令微调。负面指令设计在两个语义级别:(i)不存在的元素操作和(ii)存在的元素操作。 优势:结果表明,现有的LMM在面对负面指令时,特别是存在元素操作指令时,会表现出显著的幻觉。此外,通过在LRV-Instruction上微调MiniGPT4,成功地减轻了幻觉,同时在公共数据集上的性能也得到了提升,与最先进的方法相比,使用的训练数据更少。此外,在训练数据中,正面和负面实例的平衡比例会导致模型更加鲁棒。
通过引入首个大规模且多样化的视觉指令微调数据集,成功地减轻了大型多模态模型的幻觉问题,同时在公共数据集上的性能也得到了提升。
https://arxiv.org/abs/2306.14565
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢