- 简介图像质量评估(IQA)和图像美学评估(IAA)旨在模拟人类对图像视觉质量和美学吸引力的主观感知。由于具有不同的学习目标,现有方法通常独立地处理这些任务。然而,它们忽视了这两个任务的相互关联性,这妨碍了学习面向任务的共享表示,以用于人类主观感知。为了应对这一挑战,我们提出了统一的质量和美学视觉语言预训练(UniQA),以学习两个任务的一般感知,从而同时受益于它们。针对IQA数据集中缺乏文本和IAA数据集中存在文本噪声的问题,(1)我们利用多模态大型语言模型(MLLMs)生成高质量的文本描述;(2)为了净化嘈杂的IAA数据,IAA生成的文本作为元数据。为了有效地将预训练的UniQA适应到下游任务中,我们进一步提出了一个轻量级适配器,利用多种线索充分利用预训练模型的广泛知识。广泛的实验表明,我们的方法在IQA和IAA任务上达到了新的最先进性能,同时展示了出色的零样本和少标签图像评估能力。源代码将在https://github.com/zht8506/UniQA上提供。
- 图表
- 解决问题论文旨在解决图像质量评估和美学评估任务之间缺乏联系的问题,提出了一种统一的视觉-语言预训练框架,同时受益于两个任务。
- 关键思路论文的关键思路是使用多模态大型语言模型(MLLMs)生成高质量的文本描述,并将生成的文本用于净化有噪声的美学评估数据,从而学习两个任务的通用知识表示。
- 其它亮点论文的实验结果表明,UniQA方法在图像质量评估和美学评估任务上均取得了最新的最佳性能,并展示了出色的零样本和少标签图像评估能力。此外,论文还提出了一种轻量级适配器,利用多种线索充分利用预训练模型的广泛知识,并且开源了源代码。
- 最近的相关研究包括:《DeepIQa: Deep Semantic Image Quality Assessment》、《RankIQA: Learning from Rankings for No-reference Image Quality Assessment》、《Aesthetic Quality Assessment of Consumer Photos Using Deep Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢