近日,一位开发者将 YOLOv5 和 CLIP 结合起来,在使用关键词检索图片内容的同时,直接精确裁剪出包含检索主题的那一部分。

项目地址:

https://github.com/vijishmadhavan/Crop-CLIP

在线试用地址:

https://huggingface.co/spaces/Vijish/Crop-CLIP

CLIP 是用大量带有对应标题的图像进行训练的,因此它学会了理解哪个标题与哪个图片相匹配。和目标检测器 YOLOv5 相结合之后,CLIP 在语义搜索图像的基础上增加了裁剪能力,变身 Crop-CLIP。

  • 检测和裁剪对象 (yolov5s)
  • 使用 CLIP 对裁剪后的图像进行编码
  • 使用 CLIP 编码搜索查询
  • 找到最佳匹配部分

内容中包含的图片若涉及版权问题,请及时与我们联系删除