PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild

向作者提问

NEW

简介

视频质量评估（VQA）是一个具有挑战性的问题，因为许多因素会影响视频的感知质量，例如内容吸引力、失真类型、运动模式和水平等。然而，为视频注释平均意见分数（MOS）是昂贵和耗时的，这限制了VQA数据集的规模，并对基于深度学习的方法构成了重大障碍。在本文中，我们提出了一种名为PTM-VQA的VQA方法，它利用预训练模型从各种预任务预训练模型中转移知识，从不同方面使VQA受益。具体而言，我们从不同的预训练模型中提取视频特征，并将它们集成以生成表示形式。由于这些模型拥有各种领域的知识，并且通常是使用与质量无关的标签进行训练，因此我们提出了一种名为Intra-Consistency and Inter-Divisibility（ICID）损失的方法，对多个预训练模型提取的特征施加约束。内部一致性约束确保不同预训练模型提取的特征处于相同的统一质量感知潜在空间中，而相互可分性则基于样本的注释引入伪簇，并尝试将不同簇的样本特征分开。此外，随着预训练模型数量的不断增加，确定使用哪些模型以及如何使用它们非常重要。为了解决这个问题，我们提出了一个有效的方案来选择合适的候选模型。选择在VQA数据集上具有更好聚类性能的模型作为我们的候选模型。广泛的实验表明了所提出方法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何解决视频质量评估中标注MOS成本高、数据规模小的问题？
关键思路

使用预训练模型进行视频质量评估，通过多个预训练模型提取视频特征，并通过Intra-Consistency和Inter-Divisibility约束这些特征，从而生成质量感知的潜在空间。同时，提出了一种有效的模型选择方案。
其它亮点

使用预训练模型进行视频质量评估，可以大大减少标注MOS的成本。提出了Intra-Consistency和Inter-Divisibility约束多个预训练模型提取的视频特征，从而生成质量感知的潜在空间。提出了一种有效的模型选择方案。实验结果证明了该方法的有效性。
相关研究

相关研究包括：1. Learning Video Quality from Web Data with Effective Fine-Tuning; 2. VQA: Learning from Videos with Quality Assessment and Captioning; 3. Video Quality Assessment Using Spatio-Temporal Features and Quality Aware Learning.

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问