UniAV: Unified Audio-Visual Perception for Multi-Task Video Localization

简介

视频本地化任务旨在在视频中暂时定位特定实例，包括时间动作本地化（TAL）、声音事件检测（SED）和视听事件本地化（AVEL）。现有方法过于专注于每个任务，忽略了这些实例通常出现在同一视频中以形成完整的视频内容这一事实。在这项工作中，我们提出了UniAV，一种统一的视听感知网络，首次实现了TAL、SED和AVEL任务的联合学习。UniAV可以利用任务特定数据集中可用的多样数据，使模型能够跨任务和模式学习和共享互惠知识。为了解决数据集（大小/领域/持续时间）和不同任务特性所带来的重大变化的挑战，我们建议统一编码所有视频的视觉和音频模态以获得通用表示，同时设计任务特定专家来捕获每个任务的独特知识。此外，我们通过利用预训练的文本编码器开发了一个统一的语言感知分类器，使模型能够灵活地检测各种类型的实例和先前未见过的实例，只需在推理过程中更改提示即可。UniAV以更少的参数优于其单任务对应物，在ActivityNet 1.3、DESED和UnAV-100基准测试中实现了与最先进的任务特定方法相当或更好的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决视频本地化任务中的时序问题，包括时序动作本地化（TAL）、声音事件检测（SED）和视听事件本地化（AVEL）。
关键思路

本文提出了UniAV，一种统一的视听感知网络，可以联合学习TAL、SED和AVEL任务。
其它亮点

UniAV可以利用任务特定数据集中的多样数据，允许模型跨任务和模态学习和共享互惠知识。本文提出了一种统一的语言感知分类器，通过利用预训练文本编码器，使模型能够灵活地检测各种类型的实例和以前未见过的实例。UniAV在ActivityNet 1.3、DESED和UnAV-100基准测试中表现优异。
相关研究

与本文相关的研究包括：1）用于视频本地化的其他深度学习模型，如CDC、TSM和S3D；2）用于声音事件检测的其他深度学习模型，如SED-CNN和CRNN；3）用于视听事件本地化的其他深度学习模型，如AVTS和AVR。

UniAV: Unified Audio-Visual Perception for Multi-Task Video Localization

提问交流

提问交流