CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios

2024年03月07日
  • 简介
    本文关注的是回答由丰富且复杂的动态视听组成的场景中的问题所面临的挑战。虽然现有的多模态大语言模型(MLLM)可以回应视听内容,但这些回应有时会存在歧义,并且无法描述特定的视听事件。为了克服这个限制,我们引入了CAT,它通过以下三种方式增强了MLLM的功能:1)除了直接桥接音频和视频外,我们设计了一个线索聚合器,用于在动态视听场景中聚合与问题相关的线索,以丰富大语言模型所需的详细知识。2)CAT是在混合多模态数据集上训练的,可以直接应用于视听场景。值得注意的是,我们收集了一个名为AVinstruct的音视频联合指令数据集,以进一步增强CAT模型对跨语义相关性的建模能力。3)我们提出了AI辅助的歧义感知直接优化偏好策略,这是一种专门针对重新训练模型以偏好非歧义响应并提高定位特定视听对象能力的策略。广泛的实验结果表明,CAT在多模态任务中表现优于现有方法,特别是在音视频问答(AVQA)任务中。代码和收集的指令已在https://github.com/rikeilong/Bay-CAT上发布。
  • 图表
  • 解决问题
    本论文旨在解决多模态场景下回答问题的挑战,特别是在复杂的动态音视频组件中。现有的多模态大语言模型(MLLMs)虽然可以回答音视频内容,但有时存在歧义,无法描述特定的音视频事件。本文提出了CAT,通过三种方式增强MLLM:1)设计线索聚合器,聚合动态音视频场景中与问题相关的线索,以丰富大型语言模型所需的详细知识。2)CAT在混合多模态数据集上进行训练,可直接应用于音视频场景。特别地,我们收集了一个名为AVinstruct的音视频联合指令数据集,以进一步增强CAT对跨语义相关性的建模能力。3)提出了AI辅助的歧义感知直接优化偏好策略,这是一种专门重新训练模型以支持非歧义响应并提高定位特定音视频对象能力的策略。
  • 关键思路
    本文提出了一种名为CAT的模型,通过线索聚合器和AI辅助的歧义感知直接优化偏好策略等方式增强了MLLM,以应对多模态场景下回答问题的挑战。相比当前领域的研究,CAT的思路更加细致全面,并且在AVQA任务中表现出了更好的性能。
  • 其它亮点
    本文的亮点包括:1)提出了CAT模型,通过线索聚合器和AI辅助的歧义感知直接优化偏好策略等方式增强了MLLM,以应对多模态场景下回答问题的挑战。2)使用了一个混合多模态数据集进行训练,并收集了一个名为AVinstruct的音视频联合指令数据集,以进一步增强CAT对跨语义相关性的建模能力。3)在实验中,CAT在AVQA任务中表现出了更好的性能。此外,作者还开源了代码和收集的指令数据集,可供其他研究者使用。
  • 相关研究
    在相关研究方面,最近的一些研究包括:1)《Audio-Visual Scene-Aware Dialog》;2)《Audio-Visual Scene-Aware Dialog using Multimodal Attention-based Video Features》;3)《Audio-Visual Scene-Aware Dialog with Multimodal Transformers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论