Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time

2024年07月01日
  • 简介
    近期,利用大型语言模型在文本任务中的出色表现,一些关于多模态语言模型(MLLMs)的最新研究将其扩展到其他模态,如视觉和音频。然而,这些方向的进展大多集中在仅需要粗略理解音视频语义的任务上。我们提出了Meerkat,一种具有图像和音频空间和时间上的细粒度理解的音视频LLM。通过一个基于最优传输的新模态对齐模块和一个强制执行音视频一致性的交叉注意力模块,Meerkat可以处理具有挑战性的任务,如音频指代图像定位、图像引导音频时间定位和音视频事实检查。此外,我们精心策划了一个包含300万个指令调整样本的大型数据集AVFIT,并引入了MeerkatBench,将五个具有挑战性的音视频任务统一起来。我们在所有这些下游任务中均取得了最先进的性能,相对提高了高达37.12%。
  • 图表
  • 解决问题
    本文旨在解决多模态语言模型(MLLMs)在视觉和音频领域中只能粗略理解语义的问题,提出了一种具有空间和时间上对图像和音频进行细粒度理解的音频-视觉LLM Meerkat,并针对音频引用图像基础定位、图像引导音频时间定位和音频-视觉事实核查等挑战性任务进行了探索。
  • 关键思路
    本文的关键思路是使用基于最优传输的新型模态对齐模块和交叉注意力模块来强制执行音频-视觉一致性,从而实现对图像和音频的空间和时间上的细粒度理解。
  • 其它亮点
    本文提出了一种新型的音频-视觉LLM Meerkat,并针对音频引用图像基础定位、图像引导音频时间定位和音频-视觉事实核查等挑战性任务进行了探索。作者还精心策划了一个包含300万个指令调整样本的大型数据集AVFIT,并引入了MeerkatBench来统一五个具有挑战性的音频-视觉任务。实验结果表明,在所有下游任务中均取得了最先进的性能,相对改进率高达37.12%。
  • 相关研究
    在这个领域的相关研究还包括:1.《Unifying Vision-and-Language Tasks via Text Generation》;2.《VisualBERT: A Simple and Performant Baseline for Vision and Language》;3.《VL-BERT: Pre-training of Generic Visual-Linguistic Representations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论