video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

2024年06月22日
  • 简介
    本文提出了视频-SALMONN,这是一个端到端的音视频大语言模型(av-LLM),可以理解不仅是视觉帧序列、音频事件和音乐,还包括语音。为了获得语音理解所需的细粒度时间信息,同时保持对其他视频元素的高效,本文提出了一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,用于连接预训练的音视频编码器和主干大语言模型。此外,还提出了专门的训练方法,包括多样性损失和非配对音视频混合训练方案,以避免帧或模态的支配。在引入的语音-音频-视频评估基准上,视频-SALMONN在视频问答任务上实现了超过25%的绝对准确度提高,在带有人类语音的音视频问答任务上实现了超过30%的绝对准确度提高。此外,视频-SALMONN在其他音视频大语言模型无法完成的任务上展现了出色的视频理解和推理能力。我们的训练代码和模型检查点可在\texttt{\url{https://github.com/bytedance/SALMONN/}}上获得。
  • 图表
  • 解决问题
    论文提出了一个名为video-SALMONN的单一端到端av-LLM,旨在解决视频理解中的语音理解问题。该模型能够理解视觉帧序列、音频事件和音乐,同时也能够理解语音。
  • 关键思路
    论文提出了一种新颖的多分辨率因果Q-Former(MRC Q-Former)结构,以连接预训练的音频-视觉编码器和骨干大型语言模型,从而获得语音理解所需的细粒度时间信息,同时对其他视频元素保持高效。
  • 其它亮点
    论文提出了多种专门的训练方法,包括多样性损失和不成对的音频-视觉混合训练方案,以避免帧或模态占主导地位。在引入的语音-音频-视觉评估基准上,video-SALMONN在视频问答任务上获得了超过25%的绝对准确度提高,并在带有人类语音的音频-视觉问答任务上获得了超过30%的绝对准确度提高。此外,video-SALMONN在其他av-LLMs无法处理的任务上展示了出色的视频理解和推理能力。作者已经开源了他们的训练代码和模型检查点。
  • 相关研究
    最近的相关研究包括《A Survey on Audio-Visual Emotion Recognition》、《Audio-Visual Speech Separation and Dereverberation: Theory and Applications》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论