AesExpert: Towards Multi-modality Foundation Model for Image Aesthetics Perception

向作者提问

NEW

简介

由于图像审美感知（IAP）的高度抽象性，对于当前的多模态大语言模型（MLLMs）来说，这构成了重大挑战。缺乏人工注释的多模态审美数据进一步加剧了这一困境，导致MLLMs在审美感知能力方面表现不佳。为了解决上述挑战，我们首先介绍了一个全面注释的审美多模态指导调整（AesMMIT）数据集，该数据集是构建多模态审美基础模型的基石。具体而言，为了使MLLMs与人类审美感知保持一致，我们构建了一个语料库丰富的审美批评数据库，其中包含21,904个不同来源的图像和88K个人类自然语言反馈，这些反馈是通过渐进式问题收集的，范围从粗粒度的审美等级到细粒度的审美描述。为了确保MLLMs能够处理多样化的查询，我们进一步提示GPT优化审美批评并组装大规模的审美指导调整数据集，即AesMMIT，该数据集包含409K个多类型指令，以激活更强的审美能力。基于AesMMIT数据库，我们对开源的通用基础模型进行微调，实现了多模态审美专家模型，称为AesExpert。广泛的实验表明，所提出的AesExpert模型比最先进的MLLMs（包括最先进的GPT-4V和Gemini-Pro-Vision）具有显著更好的审美感知性能。源数据将可在https://github.com/yipoh/AesExpert上获得。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决当前多模态大语言模型（MLLMs）在图像美学感知方面的不足，以及缺乏人类注释的多模态美学数据集的问题。
关键思路

论文提出了一个全面注释的美学多模态指导调整（AesMMIT）数据集，用于构建多模态美学基础模型。同时，通过构建一个包含多种类型指导的大规模美学调整数据集，即AesMMIT，来训练MLLMs以更好地适应人类美学感知。
其它亮点

论文设计了一个包含21,904个不同来源的图像和88K个人类自然语言反馈的美学批判数据库，通过渐进式的问题收集反馈，从粗粒度的美学评分到细粒度的美学描述。同时，通过引导GPT来完善美学批评，组装大规模美学指导调整数据集AesMMIT，其中包含409K个多类型指导，以激活更强的美学能力。基于AesMMIT数据库，作者对开源的通用基础模型进行微调，实现了多模态美学专家模型AesExpert。实验结果表明，AesExpert模型的美学感知性能明显优于现有的MLLMs，包括最先进的GPT-4V和Gemini-Pro-Vision。
相关研究

最近的相关研究包括：1.《Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast Artistic Style Transfer》；2.《Aesthetic Quality Assessment of Photographs Using Generic Image Descriptors》；3.《Aesthetic-based Clothing Recommendation with Multi-Modal Data》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问