Q-Ground: Image Quality Grounding with Large Multi-modality Models

2024年07月24日
  • 简介
    近年来,大型多模态模型(LMM)的最新进展极大地提高了图像质量评估(IQA)方法评估和解释视觉内容质量的能力。然而,这些进展大多集中在整体质量评估上,对于全面的视觉理解至关重要的局部质量细节检查仍然很少被探索。在这项工作中,我们介绍了Q-Ground,这是第一个旨在通过将大型多模态模型与详细的视觉质量分析相结合来解决细粒度视觉质量基础问题的框架。我们的贡献的核心是引入了QGround-100K数据集,这是一个新颖的资源,包含100k个三元组(图像、质量文本、失真分割),以促进对视觉质量的深入研究。该数据集包括两部分:一部分是人工标注的注释,用于准确的质量评估,另一部分是由LMM自动标注的,如GPT4V,这有助于提高模型训练的鲁棒性,同时降低数据收集的成本。通过QGround-100K数据集,我们提出了一种基于LMM的方法,配备了多尺度特征学习,可以学习出能够根据文本提示执行图像质量回答和失真分割的模型。这种双重能力方法不仅可以提高模型对区域感知图像质量的理解,还可以使其与复杂的基于文本的图像质量和特定失真查询进行交互响应。Q-Ground在更细的尺度上迈出了复杂的视觉质量分析的一步,为未来研究建立了一个新的基准。代码和数据集可在https://github.com/Q-Future/Q-Ground上获得。
  • 图表
  • 解决问题
    Q-Ground论文试图解决细节图像质量评估的问题,提出了一种新的框架和数据集。
  • 关键思路
    Q-Ground框架结合大型多模态模型和细节图像质量分析,通过多尺度特征学习实现图像质量回答和失真分割,并提出了QGround-100K数据集。
  • 其它亮点
    Q-Ground提供了一种新的方法来处理细节图像质量评估,具有双重能力,可以回答关于图像质量和特定失真的复杂文本查询,提出了QGround-100K数据集,包含人工标注和自动标注两部分,实验结果表明该方法在细节图像质量评估方面表现出色。
  • 相关研究
    最近的相关研究包括基于深度学习的图像质量评估方法和大型多模态模型的发展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论