- 简介大型语言模型(LLM)和扩散模型的发展带来了人工智能生成内容(AIGC)的繁荣。建立一个有效的质量评估框架对于基于AIGC技术生成的不同图像或视频提供可量化的评估至关重要。AIGC方法生成的内容是由精心设计的提示驱动的。因此,提示也可以作为AIGC质量评估的基础。本研究提出了一种有效的AIGC质量评估(QA)框架。首先,我们提出了一种基于双源CLIP(对比语言-图像预训练)文本编码器的混合提示编码方法,以理解和响应提示条件。其次,我们提出了一种基于集成的特征混合器模块,以有效地混合适应的提示和视觉特征。实证研究在两个数据集上进行:AIGIQA-20K(人工智能生成图像质量评估数据库)和T2VQA-DB(文本到视频质量评估数据库),验证了我们提出的方法Prompt Condition Quality Assessment(PCQA)的有效性。我们提出的简单可行的框架可能促进多模态生成领域的研究发展。
- 图表
- 解决问题本文旨在构建一种有效的人工智能生成内容(AIGC)质量评估框架,以提供基于AIGC技术的不同图像或视频的可量化评估。
- 关键思路本文提出了一种有效的AIGC质量评估(QA)框架,其中包括基于双源CLIP文本编码器的混合提示编码方法和基于集成的特征混合器模块。
- 其它亮点本文的实验在两个数据集上进行,验证了所提出的Prompt Condition Quality Assessment(PCQA)方法的有效性。该框架简单易行,有望促进多模态生成领域的研究发展。
- 与本文相关的最近研究包括“CLIP: Learning Transferable Visual Models From Natural Language Supervision”和“Generative Pretraining Transformer 3”等。
沙发等你来抢
去评论
评论
沙发等你来抢