- 简介高度抽象的图像美学感知(IAP)对于当前的多模态大语言模型(MLLMs)提出了重大挑战。缺乏人工注释的多模态美学数据进一步加剧了这个困境,导致MLLMs在美学感知能力方面表现不佳。为了解决上述挑战,我们首先介绍了一个全面注释的美学多模态指令调整(AesMMIT)数据集,它是构建多模态美学基础模型的基石。具体来说,为了使MLLMs与人类美学感知相一致,我们构建了一个语料库丰富的美学评论数据库,其中包括21,904个来源多样的图像和88K个人类自然语言反馈,这些反馈是通过渐进式问题收集的,从粗粒度美学等级到细粒度美学描述不等。为了确保MLLMs可以处理各种查询,我们进一步提示GPT优化美学评论,并组装大规模美学指令调整数据集,即AesMMIT,该数据集包含409K个多类型指令,以激活更强的美学能力。基于AesMMIT数据库,我们微调了开源的通用基础模型,实现了多模态美学专家模型,称为AesExpert。大量实验证明,所提出的AesExpert模型比最先进的MLLMs,包括最先进的GPT-4V和Gemini-Pro-Vision,都具有显着更好的美学感知表现。源数据将可在https://github.com/yipoh/AesExpert上获得。
-
- 图表
- 解决问题本论文旨在解决当前多模态大语言模型在图像美学感知方面的不足,提出了一个全面注释的AesMMIT数据集,并通过该数据集构建了多模态美学基础模型AesExpert。
- 关键思路论文的关键思路是通过构建一个全面注释的AesMMIT数据集,从粗到细逐步收集多样化的图像及人类自然语言反馈,进而微调通用的基础模型,建立多模态美学专家模型AesExpert。
- 其它亮点论文的亮点包括构建了一个全面注释的AesMMIT数据集,通过微调通用的基础模型建立了多模态美学专家模型AesExpert,实验结果表明该模型在美学感知方面的表现显著优于当前最先进的多模态大语言模型,并且作者已将源数据和代码开源。
- 与本论文相关的研究包括:Gemini-Pro-Vision、GPT-4V等多模态大语言模型,以及其他的图像美学感知研究,如基于深度学习的图像美学评价模型等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流