Large Multi-modality Model Assisted AI-Generated Image Quality Assessment

简介

传统的基于深度神经网络（DNN）的图像质量评估（IQA）模型利用卷积神经网络（CNN）或Transformer学习质量感知的特征表示，在自然场景图像上取得了可观的性能。然而，当应用于人工智能生成的图像（AGI）时，这些基于DNN的IQA模型表现出较差的性能。这种情况主要是由于生成过程的不可控性导致某些AGI固有的语义不准确性所致。因此，辨别语义内容的能力对于评估AGI的质量变得至关重要。传统的基于DNN的IQA模型受限于有限的参数复杂性和训练数据，难以捕捉复杂的细粒度语义特征，使其难以把握整个图像的语义内容的存在和连贯性。为了解决当前IQA模型在语义内容感知方面的不足，我们引入了一个大型的多模态模型辅助人工智能生成图像质量评估（MA-AGIQA）模型，它利用经过精心设计的文本提示来感知语义信息并提取语义向量。此外，它采用了混合专家（MoE）结构，动态地将语义信息与传统DNN-based IQA模型提取的质量感知特征集成。在两个人工智能生成的内容数据集AIGCQA-20k和AGIQA-3k上进行的全面实验表明，MA-AGIQA实现了最先进的性能，并展示了其优越的泛化能力，可以评估AGI的质量。代码可在https://github.com/wangpuyi/MA-AGIQA上获得。
图表
解决问题

本文旨在解决当前基于深度神经网络的图像质量评估模型在评估人工智能生成图像时表现不佳的问题，提出了一种新的模型MA-AGIQA。
关键思路

MA-AGIQA模型利用文本提示来感知语义信息并提取语义向量，同时采用混合专家结构将语义信息与传统DNN-based IQA模型提取的质量感知特征动态集成，以解决当前模型对于语义内容感知不足的问题。
其它亮点

本文在两个AI生成内容数据集上进行了全面的实验，证明MA-AGIQA模型在评估人工智能生成图像的质量方面具有最先进的性能。此外，作者还提供了代码开源。
相关研究

最近的相关研究包括： 1. Deep Learning for Blind Image Quality Assessment: A Survey， 2. A Comprehensive Survey on Deep Learning for Image Quality Assessment， 3. Learning a Blind Measure of Perceptual Image Quality， 4. Learning to Predict Perceived Visual Quality， 5. Deep Blind Image Quality Assessment by Using Relative Attributes.

Large Multi-modality Model Assisted AI-Generated Image Quality Assessment

评论