Cropper: Vision-Language Model for Image Cropping through In-Context Learning

简介

图像裁剪的目标是在图像中识别视觉上吸引人的裁剪部分。传统的方法依赖于在特定数据集上训练的专门架构，这些方法难以适应新的需求。最近，大规模视觉语言模型（VLMs）的突破使得在没有显式训练的情况下进行视觉上下文学习成为可能。然而，使用VLMs进行视觉下游任务的有效策略仍然不清楚且未被充分探索。本文提出了一种有效的方法来利用VLMs进行更好的图像裁剪。首先，我们提出了一种有效的提示检索机制，用于自动选择上下文示例进行图像裁剪。其次，我们引入了一种迭代改进策略，以逐步增强预测的裁剪部分。所提出的框架名为Cropper，适用于各种裁剪任务，包括自由形式裁剪、主题感知裁剪和宽高比感知裁剪。广泛的实验和用户研究表明，Cropper在几个基准测试中明显优于现有的方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何利用大规模视觉语言模型（VLMs）来实现更好的图像裁剪？
关键思路

通过有效的提示检索机制和迭代优化策略，提出了一种名为Cropper的框架，可以应用于各种裁剪任务，并在多个基准测试中显著优于现有方法。
其它亮点

论文提出的Cropper框架在自由形式裁剪、主体感知裁剪和纵横比感知裁剪等多个任务中都表现出色。实验结果和用户研究表明，Cropper在多个基准测试中显著优于现有方法。
相关研究

最近的相关研究包括《ViT: Vision Transformers》、《DETR: End-to-End Object Detection with Transformers》等。

Cropper: Vision-Language Model for Image Cropping through In-Context Learning

提问交流

提问交流