VisualCritic: Making LMMs Perceive Visual Quality Like Humans

2024年03月19日
  • 简介
    目前,大型多模态模型(LMMs)在理解和生成视觉信号方面展现出了令人印象深刻的泛化能力。然而,它们目前仍然缺乏类似于人类感知的低级视觉质量的足够能力。LMMs能否实现这一点,并在这方面展示相同程度的泛化能力?如果是这样,不仅LMMs的多功能性可以进一步提高,而且可以解决视觉质量评估领域中跨数据集表现差的挑战。在本文中,我们探讨了这个问题,并给出了答案:“是的!”。作为这项初步探索的结果,我们提出了VisualCritic,这是第一个用于广谱图像主观质量评估的LMM。VisualCritic可以直接用于各种数据,无需像传统专业模型那样进行数据集特定的自适应操作。作为一个指令跟随的LMM,VisualCritic使得具备以下新的能力:(1)定量测量给定图像的感知质量,包括其平均意见得分(MOS)、噪声、色彩鲜艳度、清晰度和其他数字指标;(2)定性评估视觉质量并提供可解释的描述;(3)区分给定图像是人工智能生成的还是照片。广泛的实验通过比较VisualCritic与其他开源LMM和传统专业模型在人工智能生成和照片图像上的表现来证明VisualCritic的有效性。
  • 图表
  • 解决问题
    本文旨在探讨大型多模型(LMMs)是否能够像人类感知一样,感知低级别的视觉质量,并在这方面展示同样的泛化能力。如果可以实现,将不仅可以进一步增强LMM的多功能性,还可以解决视觉质量评估领域中跨数据集性能差的挑战。
  • 关键思路
    本文提出了VisualCritic,这是第一个用于广谱图像主观质量评估的LMM。VisualCritic可以直接用于各种数据,无需像传统专业模型那样进行特定数据集的自适应操作。作为一个指令遵循的LMM,VisualCritic可以实现新的能力,如(1)定量测量给定图像的感知质量,包括其平均意见分数(MOS),噪声,色彩鲜艳度,清晰度和其他数值指标,(2)定性评估视觉质量并提供可解释的描述,(3)区分给定的图像是AI生成的还是摄影的。
  • 其它亮点
    本文的亮点包括:与其他开源LMM和传统专业模型在AI生成和摄影图像上进行比较,证明了VisualCritic的有效性。实验设计了大量的实验,使用了多个数据集,并提供了开源代码。此外,VisualCritic还可以区分AI生成的图像和摄影图像,这是其他模型所不具备的能力。
  • 相关研究
    最近的相关研究包括:(1)用于图像质量评估的其他LMM,如CLIQ,VGG,NIMA等;(2)其他基于深度学习的图像质量评估方法,如基于卷积神经网络的方法,基于生成对抗网络的方法等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论