Soundscape Captioning using Sound Affective Quality Network and Large Language Model

2024年06月09日
  • 简介
    我们生活在一个丰富多彩的声音世界中,被个人或社区作为声景体验。计算机听觉场景分析通过检测和分类事件来解开声音场景,关注声音的客观属性,如类别和时间特征,忽略了声音对人的影响,未能探索声音与情感之间的关系。为了填补这一空白,并自动化传统依赖劳动密集型主观评分和调查的声景分析,我们提出了声景字幕(SoundSCap)任务。SoundSCap通过捕捉声学场景、事件信息和相应的人类情感质量,生成上下文感知的声景描述。为此,我们提出了一个自动声景字幕生成器(SoundSCaper),由声学模型SoundAQnet和一个通用的大型语言模型(LLM)组成。SoundAQnet同时建模声音场景、事件和感知情感质量的多尺度信息,而LLM通过解析SoundAQnet捕获的信息生成声景字幕。由16位音频/声景专家评估声景字幕的质量。SoundSCaper生成的字幕平均得分(满分5分)比两位声景专家生成的字幕分别低0.21和0.25分,在评估集和具有不同长度和声学特性的模型未知混合外部数据集上,但差异不具有统计学意义。总体而言,与声景专家注释的字幕相比,SoundSCaper生成的字幕表现出很好的性能。模型的代码、LLM脚本、人类评估数据和说明以及专家评估统计数据都是公开可用的。
  • 图表
  • 解决问题
    soundscape captioning任务:自动生成具有上下文意义的环境音描述,填补了计算机听觉场景分析中忽略声音对人的影响和声音与情感之间关系的空白
  • 关键思路
    提出了一个自动soundscape captioner,由一个声学模型和一个大型语言模型组成,其中声学模型SoundAQnet同时建模声学场景、事件和感知情感质量的多尺度信息,而大型语言模型则将SoundAQnet捕获的信息解析为通用语言生成soundscape描述
  • 其它亮点
    通过一个由16名音频/环境音专家组成的评委会评估,SoundSCaper生成的描述在评估集和混合数据集上的平均分数(最高5分)比两位专家生成的描述低0.21和0.25分,但差异并不显著。研究还公开了代码、LLM脚本、人工评估数据和说明以及专家评估统计数据等
  • 相关研究
    最近在这个领域的相关研究包括:1.‘Acoustic Scene Classification and Sound Event Detection in Domestic Environments: Task Description, Datasets, and Baseline Results’;2.‘Environmental Sound Classification with Convolutional Neural Networks’;3.‘Deep Learning for Environmental Audio Classification’等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论