On the Audio Hallucinations in Large Audio-Video Language Models

2024年01月18日
  • 简介
    大型音视频语言模型可以为视频和音频生成描述。然而,它们有时会忽略音频内容,仅依赖于视觉信息产生音频描述。本文称之为“音频幻觉”,并在大型音视频语言模型中对其进行了分析。我们通过询问音频信息收集了1,000个句子,并注释它们是否包含幻觉。如果一个句子是幻觉的,我们还会对幻觉类型进行分类。结果显示,332个句子存在幻觉,每种幻觉类型的名词和动词都有不同的趋势。基于此,我们使用预训练的音频文本模型在零样本和微调设置下处理音频幻觉分类任务。我们的实验结果表明,零样本模型的表现更好(F1分数为52.2%),比随机模型(40.3%)更好,微调模型的表现为87.9%,优于零样本模型。
  • 图表
  • 解决问题
    本文研究大型音视频语言模型中存在的音频幻觉问题,并尝试解决这个问题。
  • 关键思路
    通过收集1000个句子并进行标注,分析大型音视频语言模型中音频幻觉的出现情况和类型,并使用预训练的音频-文本模型在零-shot和fine-tuning设置下进行分类。
  • 其它亮点
    实验结果表明,在分类任务中,零-shot模型的性能(F1=52.2%)优于随机模型(F1=40.3%),而fine-tuning模型的性能最好(F1=87.9%)。
  • 相关研究
    近期的相关研究包括:《Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments》、《Audio-Visual Scene-Aware Dialog》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论