AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue

2024年03月24日
  • 简介
    在日常交流中,人类经常使用语音和手势来指称特定的区域或物体,这个过程被称为指称对话(RD)。虽然之前的研究已经通过大型语言模型(LLMs)或大型多模态模型(LMMs)在静态环境下研究了RD,但是在音频-视觉媒体中探索时间指称对话(TRD)仍然受到限制。两个主要的挑战阻碍了这个领域的进展:(1)缺乏具有精确时间标注的全面未修剪的音频-视觉视频数据集,(2)需要方法有效地整合复杂的时间听觉和视觉线索。为了解决这些挑战,我们引入了一个新的框架来生成PU-VALOR,一个包含超过114,000个未修剪视频的广泛音频-视觉数据集,并具有精确的时间划分。我们还提出了AVicuna,其中包括一个音频-视觉令牌交错器(AVTI),以确保音频-视觉信息的时间对齐。此外,我们开发了A5-222K数据集,其中包含超过200,000个音频-文本配对,以便于音频和文本的对齐。我们的实验表明,AVicuna可以有效地处理音频-视觉视频中的TRD,并在各种音频-视觉视频理解任务中取得了最先进的性能,特别是在未修剪的视频中。我们进一步研究了交错音频-视觉输入的最佳音频交错率,以最大化在音频-视觉事件密集定位任务上的性能。
  • 图表
  • 解决问题
    本文旨在解决时间参考对话(TRD)在音视频媒体中的挑战,包括缺乏准确的时间注释数据集和有效地整合复杂的时间性听觉和视觉线索。
  • 关键思路
    本文提出了一个新的框架来生成PU-VALOR音视频数据集,包括超过114,000个未修剪的视频,并引入了AVicuna,其中包括音频-视觉令牌交错器(AVTI),以确保音频-视觉信息的时间对齐。
  • 其它亮点
    本文还开发了A5-222K数据集,包括超过200,000个音频-文本对,以促进音频和文本对齐。实验表明,AVicuna可以有效地处理音视频视频中的TRD,并在各种音视频视频理解任务中实现了最先进的性能,特别是在未修剪的视频中。本文还研究了交错音频-视觉输入的最佳音频交错率,以在音频-视觉事件密集定位任务中最大化性能。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如“Large Language Models (LLMs) or Large Multimodal Models (LMMs) in static contexts”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论