MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency

2024年06月19日
  • 简介
    多模态大语言模型(MLLMs)容易出现非事实或过时的知识问题,这可能会表现为由于多模态知识的复杂性而导致的误读和误识别错误。以往的基准测试没有系统地分析编辑方法在纠正这两种错误类型方面的表现。为了更好地表示和纠正这些错误,我们将多模态知识分解为其视觉和文本组件。不同的错误类型对应不同的编辑格式,这些格式编辑多模态知识的不同部分。我们提出了一种细粒度的多模态知识编辑基准测试MC-MKE,强调模态一致性。我们的基准测试通过编辑相应的知识组件,促进了独立纠正误读和误识别错误。我们在MC-MKE上评估了三种多模态知识编辑方法,揭示了它们的局限性,尤其是在模态一致性方面。我们的工作突出了多模态知识编辑所面临的挑战,并激励进一步研究开发有效的技术来解决这个任务。
  • 图表
  • 解决问题
    本论文试图解决Multimodal large language models (MLLMs)在处理复杂的多模态知识时,容易出现错误的问题,尤其是非事实或过时的知识。而此前的基准测试没有系统地分析编辑方法在纠正这两种错误类型方面的表现。
  • 关键思路
    为了更好地表示和纠正这些错误,本文将多模态知识分解为其视觉和文本组件,不同类型的错误对应不同的编辑格式,编辑多模态知识的不同部分。这篇论文提出了一个名为MC-MKE的细粒度多模态知识编辑基准,强调模态一致性,可以通过编辑相应的知识组件来独立纠正错误。
  • 其它亮点
    本文对三种多模态知识编辑方法在MC-MKE上进行了评估,揭示了它们的局限性,特别是在模态一致性方面。本文的工作突出了多模态知识编辑所面临的挑战,并激发了进一步研究开发有效技术的动机。
  • 相关研究
    最近的相关研究包括:《Improving Multimodal Transformer for Multimodal Sentiment Analysis》、《Multimodal Transformer for Unaligned Multimodal Language Sequences》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论