- 简介随着生成模型的快速发展,人工智能生成内容(AIGC)在日常生活中呈指数级增长。其中,文本到视频(T2V)生成受到了广泛关注。尽管已经发布了许多用于生成高感知质量视频的T2V模型,但仍缺乏一种定量评估这些视频质量的方法。为解决这个问题,我们建立了迄今为止最大规模的文本到视频质量评估数据库(T2VQA-DB)。该数据集由9种不同的T2V模型生成的10,000个视频组成。我们还进行了一项主观研究,以获得每个视频的对应平均意见分数。基于T2VQA-DB,我们提出了一种新颖的基于Transformer的主观对齐文本到视频质量评估(T2VQA)模型。该模型从文本-视频对齐和视频保真度两个角度提取特征,然后利用大型语言模型的能力给出预测分数。实验结果表明,T2VQA优于现有的T2V度量和SOTA视频质量评估模型。定量分析表明,T2VQA能够给出主观对齐的预测,验证了其有效性。数据集和代码将在https://github.com/QMME/T2VQA发布。
-
- 图表
- 解决问题本论文旨在解决文本到视频生成中缺乏量化评估方法的问题,并提出了一种基于Transformer的主观对齐文本到视频质量评估模型。
- 关键思路论文提出了一个基于Transformer的主观对齐文本到视频质量评估模型,该模型从文本-视频对齐和视频保真度两个角度提取特征,并利用大型语言模型的能力进行预测评分。
- 其它亮点该论文建立了迄今为止最大规模的文本到视频质量评估数据库,并进行了主观评分的主观研究。实验结果表明,T2VQA优于现有的T2V指标和SOTA视频质量评估模型。该数据集和代码将在https://github.com/QMME/T2VQA上发布。
- 最近在这个领域中,还有一些相关的研究,如《A Survey of Deep Learning-Based Text-to-Video Generation》、《Text-to-Video Generation: A Survey》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流