Subjective-Aligned Dateset and Metric for Text-to-Video Quality Assessment

简介

随着生成模型的快速发展，人工智能生成内容（AIGC）在日常生活中呈指数级增长。其中，文本到视频（T2V）生成受到了广泛关注。尽管已经发布了许多用于生成高感知质量视频的T2V模型，但仍缺乏一种定量评估这些视频质量的方法。为解决这个问题，我们建立了迄今为止最大规模的文本到视频质量评估数据库（T2VQA-DB）。该数据集由9种不同的T2V模型生成的10,000个视频组成。我们还进行了一项主观研究，以获得每个视频的对应平均意见分数。基于T2VQA-DB，我们提出了一种新颖的基于Transformer的主观对齐文本到视频质量评估（T2VQA）模型。该模型从文本-视频对齐和视频保真度两个角度提取特征，然后利用大型语言模型的能力给出预测分数。实验结果表明，T2VQA优于现有的T2V度量和SOTA视频质量评估模型。定量分析表明，T2VQA能够给出主观对齐的预测，验证了其有效性。数据集和代码将在https://github.com/QMME/T2VQA发布。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决文本到视频生成中缺乏量化评估方法的问题，并提出了一种基于Transformer的主观对齐文本到视频质量评估模型。
关键思路

论文提出了一个基于Transformer的主观对齐文本到视频质量评估模型，该模型从文本-视频对齐和视频保真度两个角度提取特征，并利用大型语言模型的能力进行预测评分。
其它亮点

该论文建立了迄今为止最大规模的文本到视频质量评估数据库，并进行了主观评分的主观研究。实验结果表明，T2VQA优于现有的T2V指标和SOTA视频质量评估模型。该数据集和代码将在https://github.com/QMME/T2VQA上发布。
相关研究

最近在这个领域中，还有一些相关的研究，如《A Survey of Deep Learning-Based Text-to-Video Generation》、《Text-to-Video Generation: A Survey》等。

Subjective-Aligned Dateset and Metric for Text-to-Video Quality Assessment

提问交流

提问交流