Cropper: Vision-Language Model for Image Cropping through In-Context Learning

2024年08月14日
  • 简介
    图像裁剪的目标是在图像中识别视觉上吸引人的裁剪部分。传统的方法依赖于在特定数据集上训练的专门架构,这些方法难以适应新的需求。最近,大规模视觉语言模型(VLMs)的突破使得在没有显式训练的情况下进行视觉上下文学习成为可能。然而,使用VLMs进行视觉下游任务的有效策略仍然不清楚且未被充分探索。本文提出了一种有效的方法来利用VLMs进行更好的图像裁剪。首先,我们提出了一种有效的提示检索机制,用于自动选择上下文示例进行图像裁剪。其次,我们引入了一种迭代改进策略,以逐步增强预测的裁剪部分。所提出的框架名为Cropper,适用于各种裁剪任务,包括自由形式裁剪、主题感知裁剪和宽高比感知裁剪。广泛的实验和用户研究表明,Cropper在几个基准测试中明显优于现有的方法。
  • 作者讲解
  • 图表
  • 解决问题
    如何利用大规模视觉语言模型(VLMs)来实现更好的图像裁剪?
  • 关键思路
    通过有效的提示检索机制和迭代优化策略,提出了一种名为Cropper的框架,可以应用于各种裁剪任务,并在多个基准测试中显著优于现有方法。
  • 其它亮点
    论文提出的Cropper框架在自由形式裁剪、主体感知裁剪和纵横比感知裁剪等多个任务中都表现出色。实验结果和用户研究表明,Cropper在多个基准测试中显著优于现有方法。
  • 相关研究
    最近的相关研究包括《ViT: Vision Transformers》、《DETR: End-to-End Object Detection with Transformers》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问