Audio-Visual Segmentation via Unlabeled Frame Exploitation

简介

音视频分割（AVS）旨在将视频帧中的声音对象进行分割。尽管取得了很大的进展，但我们实验证明，目前的方法在使用未标记的帧时仅能获得较小的性能提升，导致了未充分利用的问题。为了充分挖掘未标记帧在AVS中的潜力，我们根据它们的时间特征明确地将它们分为两类，即邻近帧（NF）和远离帧（DF）。与标记帧在时间上相邻的NF通常包含丰富的动态信息，有助于准确定位声音对象。与NF相反，DF与标记帧的时间距离较长，具有外观变化的语义相似对象。考虑到它们的独特特点，我们提出了一个多功能框架，有效地利用它们来解决AVS问题。具体来说，对于NF，我们利用动态线索作为动态指导来提高对象的定位精度。此外，我们将DF视为有效的标记帧增强，以自我训练的方式用于数据多样性的丰富。广泛的实验结果证明了我们方法的多功能性和优越性，释放了丰富未标记帧的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决音视频分割中未标记帧的利用问题，提出了一种能够充分利用邻近帧和远离帧的语义和动态信息的框架。
关键思路

该论文提出了一种多功能框架，通过将未标记帧分为邻近帧和远离帧两类，利用邻近帧的动态信息和远离帧的语义信息来提高音视频分割的准确性。
其它亮点

论文通过实验验证了提出的多功能框架的优越性，同时还提供了数据集和开源代码。
相关研究

近期相关研究包括《Temporal Pyramid Network for Audio-Visual Segmentation》和《Audio-Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features》等。

Audio-Visual Segmentation via Unlabeled Frame Exploitation

提问交流

提问交流