- 简介图像裁剪的目标是在图像中识别视觉上吸引人的裁剪部分。传统的方法依赖于在特定数据集上训练的专门架构,这些方法难以适应新的需求。最近,大规模视觉语言模型(VLMs)的突破使得在没有显式训练的情况下进行视觉上下文学习成为可能。然而,使用VLMs进行视觉下游任务的有效策略仍然不清楚且未被充分探索。本文提出了一种有效的方法来利用VLMs进行更好的图像裁剪。首先,我们提出了一种有效的提示检索机制,用于自动选择上下文示例进行图像裁剪。其次,我们引入了一种迭代改进策略,以逐步增强预测的裁剪部分。所提出的框架名为Cropper,适用于各种裁剪任务,包括自由形式裁剪、主题感知裁剪和宽高比感知裁剪。广泛的实验和用户研究表明,Cropper在几个基准测试中明显优于现有的方法。
-
- 图表
- 解决问题如何利用大规模视觉语言模型(VLMs)来实现更好的图像裁剪?
- 关键思路通过有效的提示检索机制和迭代优化策略,提出了一种名为Cropper的框架,可以应用于各种裁剪任务,并在多个基准测试中显著优于现有方法。
- 其它亮点论文提出的Cropper框架在自由形式裁剪、主体感知裁剪和纵横比感知裁剪等多个任务中都表现出色。实验结果和用户研究表明,Cropper在多个基准测试中显著优于现有方法。
- 最近的相关研究包括《ViT: Vision Transformers》、《DETR: End-to-End Object Detection with Transformers》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流