MVAD: A Multiple Visual Artifact Detector for Video Streaming

向作者提问

NEW

简介

视频流内容中常常出现视觉伪影，这是由于内容制作和/或传输过程中的现有条件所致。由于这些伪影会降低用户体验的质量，因此自动准确地检测它们以实现有效的质量测量和增强非常重要。现有的检测方法通常专注于单一类型的伪影和/或通过阈值化客观质量指标来确定伪影的存在。这些方法据报道在预测性能上提供不一致的结果，并且在多种伪影共存和相互作用的实际应用中也不实用。本文提出了一种用于视频流的多视觉伪影检测器MVAD，它首次能够使用单一框架检测多种伪影，而不依赖于视频质量评估模型。我们的方法采用一种新的伪影感知动态特征提取器（ADFE）来获取每个帧内与多种伪影相关的空间特征。提取的特征进一步通过递归记忆视觉变换器（RMViT）模块进行处理，该模块捕捉输入视频中的短期和长期时间信息。所提出的网络架构是基于一个新的、大型和多样化的训练数据库进行端到端优化的，该数据库是通过模拟视频流传输管道并基于对抗数据增强生成的。该模型已在两个视频伪影数据库Maxwell和BVI-Artifact上进行了评估，并与七个现有的单一和多伪影检测器相比，实现了对十种目标视觉伪影的一致且改进的预测结果。源代码和训练数据库将在https://chenfeng-bristol.github.io/MVAD/上提供。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决视频流中多种视觉伪影的自动检测问题，以提高用户体验。现有的方法往往只能检测单一类型的伪影或通过阈值确定伪影的存在，无法应用于多种伪影同时存在的实际场景。
关键思路

该论文提出了一种名为MVAD的多伪影检测器，利用全新的Artifact-aware Dynamic Feature Extractor (ADFE)和Recurrent Memory Vision Transformer (RMViT)模块，对每一帧进行空间特征提取和短期和长期时间信息捕捉，实现多种伪影的自动检测。
其它亮点

论文使用Adversarial Data Augmentation生成了一个新的、大而多样的训练数据库，并在Maxwell和BVI-Artifact两个视频伪影数据库上进行了评估，结果表明MVAD在十种目标视觉伪影的检测上实现了一致且改进的预测结果，相较于七种现有的单一和多伪影检测器。论文开源了源代码和训练数据库。
相关研究

最近的相关研究包括：Single Image Reflection Removal Using Deep Learning、A Survey of Deep Learning-based Image Synthesis、Deep Learning for Video Compression: A Survey等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问