Multi-modal Learnable Queries for Image Aesthetics Assessment

简介

随着社交媒体的普及，图像美学评估（IAA）引起了广泛的关注。由于其主观和模糊的特性，这个问题具有挑战性。与直接从图像中提取美学特征不同，与图像相关的用户评论可能提供有用的补充知识，对IAA有所帮助。现有的大规模预训练模型展现了从视觉和文本特征中提取高质量可转移特征的强大能力，可学习的查询被证明对从预训练视觉特征中提取有用特征是有效的。因此，在本文中，我们提出了MMLQ，利用多模态可学习查询从多模态预训练特征中提取与美学相关的特征。广泛的实验结果表明，MMLQ在多模态IAA上实现了新的最优性能，其SRCC和PLCC分别比先前的方法提高了7.7%和8.3%。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决图像美学评估（IAA）的主观性和模糊性问题，提出了一种基于多模态可学习查询的方法MMLQ。
关键思路

MMLQ利用多模态可学习查询从预训练的视觉和文本特征中提取与美学相关的特征，实现了多模态IAA的新的最先进性能。
其它亮点

本文的实验结果表明，MMLQ在多模态IAA上的表现优于先前的方法，SRCC和PLCC分别提高了7.7％和8.3％。本文使用了大规模的预训练模型，并开源了代码，值得进一步研究。
相关研究

最近的相关研究包括：“Aesthetic Visual Quality Assessment of Web Pages”和“Deep Photo Aesthetics Analysis”。

Multi-modal Learnable Queries for Image Aesthetics Assessment

提问交流

提问交流