- 简介由于图像审美感知(IAP)的高度抽象性,对于当前的多模态大语言模型(MLLMs)来说,这构成了重大挑战。缺乏人工注释的多模态审美数据进一步加剧了这一困境,导致MLLMs在审美感知能力方面表现不佳。为了解决上述挑战,我们首先介绍了一个全面注释的审美多模态指导调整(AesMMIT)数据集,该数据集是构建多模态审美基础模型的基石。具体而言,为了使MLLMs与人类审美感知保持一致,我们构建了一个语料库丰富的审美批评数据库,其中包含21,904个不同来源的图像和88K个人类自然语言反馈,这些反馈是通过渐进式问题收集的,范围从粗粒度的审美等级到细粒度的审美描述。为了确保MLLMs能够处理多样化的查询,我们进一步提示GPT优化审美批评并组装大规模的审美指导调整数据集,即AesMMIT,该数据集包含409K个多类型指令,以激活更强的审美能力。基于AesMMIT数据库,我们对开源的通用基础模型进行微调,实现了多模态审美专家模型,称为AesExpert。广泛的实验表明,所提出的AesExpert模型比最先进的MLLMs(包括最先进的GPT-4V和Gemini-Pro-Vision)具有显著更好的审美感知性能。源数据将可在https://github.com/yipoh/AesExpert上获得。
-
- 图表
- 解决问题论文旨在解决当前多模态大语言模型(MLLMs)在图像美学感知方面的不足,以及缺乏人类注释的多模态美学数据集的问题。
- 关键思路论文提出了一个全面注释的美学多模态指导调整(AesMMIT)数据集,用于构建多模态美学基础模型。同时,通过构建一个包含多种类型指导的大规模美学调整数据集,即AesMMIT,来训练MLLMs以更好地适应人类美学感知。
- 其它亮点论文设计了一个包含21,904个不同来源的图像和88K个人类自然语言反馈的美学批判数据库,通过渐进式的问题收集反馈,从粗粒度的美学评分到细粒度的美学描述。同时,通过引导GPT来完善美学批评,组装大规模美学指导调整数据集AesMMIT,其中包含409K个多类型指导,以激活更强的美学能力。基于AesMMIT数据库,作者对开源的通用基础模型进行微调,实现了多模态美学专家模型AesExpert。实验结果表明,AesExpert模型的美学感知性能明显优于现有的MLLMs,包括最先进的GPT-4V和Gemini-Pro-Vision。
- 最近的相关研究包括:1.《Multimodal Transfer: A Hierarchical Deep Convolutional Neural Network for Fast Artistic Style Transfer》;2.《Aesthetic Quality Assessment of Photographs Using Generic Image Descriptors》;3.《Aesthetic-based Clothing Recommendation with Multi-Modal Data》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流