- 简介随着视觉语言模型(VLM)的快速发展,基于VLM的图像质量评估(IQA)试图通过语言描述图像质量,以与人类表达相一致,并捕捉IQA任务的多方面特性。然而,目前的方法仍远未达到实际应用的水平。首先,先前的工作狭窄地专注于特定的子任务或设置,这与多样化的实际应用不一致。其次,由于数据集覆盖范围、规模和质量的限制,它们的性能不够优秀。为了克服这些挑战,作者引入了“野外描绘图像质量评估(DepictQA-Wild)”方法。该方法包括一个多功能IQA任务范式,涵盖评估和比较任务、简要和详细响应、全参考和非参考情景。作者引入了一种基于基准数据的数据集构建方法,以提高数据质量,并在简要-详细联合框架下将数据集扩展到495K。因此,作者构建了一个全面、大规模、高质量的数据集,命名为DQ-495K。作者还在训练过程中保留图像分辨率,以更好地处理与分辨率相关的质量问题,并估计一个置信度分数,有助于过滤低质量的响应。实验结果表明,DepictQA-Wild在失真识别、即时评分和推理任务中显著优于传统的基于分数的方法、先前的基于VLM的IQA模型和专有的GPT-4V。作者的优势在于实际应用,包括评估下载的网络图像和排名模型处理的图像。数据集和代码将在https://depictqa.github.io/depictqa-wild/中发布。
- 图表
- 解决问题本论文旨在解决基于视觉语言模型的图像质量评估在实际应用中存在的问题,包括缺乏通用性、数据集覆盖面窄以及性能亟待提升等。
- 关键思路该论文提出了一种多功能的图像质量评估任务范式,包括评估和比较任务、简略和详细响应、全参考和非参考场景。同时,采用基于真实数据的数据集构建方法,提高数据质量,并将分辨率保留在训练过程中以更好地处理分辨率相关的质量问题。此外,该论文还提出了一种置信度评估方法,有助于过滤低质量响应。
- 其它亮点该论文构建了一个综合、大规模且高质量的数据集,名为DQ-495K,并在实验中证明了DepictQA-Wild模型在失真识别、即时评分和推理任务方面的显著优势。此外,该论文还在现实应用中进行了验证,包括评估网络下载的图像和排名模型处理的图像。论文提供了数据集和代码。
- 与此相关的最近研究包括基于视觉语言模型的其他图像质量评估方法,如score-based方法和GPT-4V方法。
沙发等你来抢
去评论
评论
沙发等你来抢