A Comprehensive Study of Multimodal Large Language Models for Image Quality Assessment

向作者提问

NEW

简介

虽然多模态大语言模型（MLLMs）在视觉理解和推理方面取得了重大进展，但它们作为强大、灵活、可解释和以文本为驱动的图像质量评估（IQA）模型的潜力仍然很大程度上未被开发。本文对MLLMs进行了全面系统的研究，以用于IQA。具体而言，我们首先研究了九种MLLMs提示系统，这些系统是心理物理学中三种标准化测试程序（即单刺激、双刺激和多刺激方法）和自然语言处理中三种流行提示策略（即标准提示、上下文提示和思维链提示）的组合。然后，我们提出了一个难样本选择程序，考虑到样本的多样性和不确定性，以进一步挑战配备各自最佳提示系统的MLLMs。我们对几种图像质量的视觉属性（如结构和纹理失真、颜色差异和几何变换）在全参考和无参考情况下对三种开源和一种闭源MLLMs进行评估。实验结果表明，只有闭源GPT-4V能够合理地解释人类对图像质量的感知，但在区分细粒度的质量变化（如颜色差异）和比较多个图像的视觉质量方面较弱，这些是人类可以轻松完成的任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在探究使用多模态大型语言模型（MLLMs）进行图像质量评估（IQA）的可能性和有效性，特别是针对图像质量的文本驱动模型的可解释性和灵活性。同时探究了多种标准测试程序和自然语言处理中的提示策略的组合方式，以及如何选择具有挑战性的样本。
关键思路

本论文提出了使用多模态大型语言模型进行图像质量评估的方法，通过采用多种标准测试程序和自然语言处理中的提示策略的组合方式，以及难度较高的样本选择方式，使得模型能够更好地评估图像质量。
其它亮点

本论文使用了四个开源和闭源的多模态大型语言模型对图像质量进行评估，并且使用了多种标准测试程序和自然语言处理中的提示策略的组合方式，以及难度较高的样本选择方式。实验结果表明，仅有闭源的GPT-4V模型能够较好地模拟人类对于图像质量的感知，但对于一些细微的质量差异（例如颜色差异）和多图像比较的任务表现较差。
相关研究

在相关研究中，最近有一些研究探索了使用多模态大型语言模型进行图像理解和推理的应用，例如ViLBERT和LXMERT。此外，还有一些研究探索了使用深度学习模型进行图像质量评估的方法，例如基于卷积神经网络的方法和基于对比度敏感度的方法。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问