UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark

2024年04月15日
  • 简介
    作为代替昂贵的专家评估的一种选择,图像美学评估(IAA)在计算机视觉中是一个至关重要的任务。然而,传统的IAA方法通常受限于单一的数据源或任务,限制了其普适性和更广泛的应用。在这项工作中,为了更好地与人类审美相一致,我们提出了一个统一的多模态图像美学评估(UNIAA)框架,包括一个名为UNIAA-LLaVA的多模态大语言模型(MLLM)和一个名为UNIAA-Bench的全面基准。我们选择具有视觉感知和语言能力的MLLM进行IAA,并建立了一个低成本的范例,将现有数据集转化为统一且高质量的视觉指导调整数据,从中训练UNIAA-LLaVA。为了进一步评估MLLM的IAA能力,我们构建了UNIAA-Bench,其中包括三个审美层次:感知、描述和评估。广泛的实验验证了UNIAA的有效性和合理性。与现有的MLLM相比,UNIAA-LLaVA在UNIAA-Bench的所有层次上都取得了竞争性的表现。具体而言,我们的模型在审美感知方面表现优于GPT-4V,甚至接近初级水平的人类。我们发现MLLM在IAA方面具有巨大的潜力,但仍有很大的改进空间。UNIAA-LLaVA和UNIAA-Bench将会发布。
  • 图表
  • 解决问题
    提出了一个统一的多模态图像美学评估框架,旨在解决传统图像美学评估方法受限于单一数据源或任务的问题。
  • 关键思路
    使用既具有视觉感知能力又具有语言能力的多模态大型语言模型进行图像美学评估,并建立了一个低成本的转换数据集的范例。
  • 其它亮点
    论文提出的UNIAA框架包括UNIAA-LLaVA和UNIAA-Bench,分别是多模态大型语言模型和综合评估基准。实验结果表明,UNIAA-LLaVA在所有评估等级上都取得了竞争性的性能,并且比现有的MLLMs表现更好。作者还发现,MLLM在图像美学评估方面具有巨大潜力,但仍有进一步改进的空间。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Neural Aesthetic Image Reviewer: How to Make a Machine Think Like an Art Critic》、《Aesthetic Visual Reasoning for Image Captioning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论