Enrich the content of the image Using Context-Aware Copy Paste

简介

数据增强在深度学习中仍然是一种广泛使用的技术，特别是在图像分类、语义分割和目标检测等任务中。其中，复制-粘贴是一种简单而有效的方法，近来受到了广泛关注。然而，现有的复制-粘贴方法通常忽略了源图像和目标图像之间的上下文相关性，导致生成的输出不一致。为了解决这个挑战，我们提出了一种上下文感知的方法，它集成了双向潜在信息传播（BLIP）来从源图像中提取内容。通过将提取的内容信息与类别信息进行匹配，我们的方法使用“Segment Anything Model”（SAM）和“You Only Look Once”（YOLO）确保了目标对象的协同集成。这种方法消除了手动注释的需要，提供了一种自动化和用户友好的解决方案。在各种数据集上进行的实验评估证明了我们的方法在增强数据多样性和在各种计算机视觉任务中生成高质量的伪图像方面的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决数据增强中Copy-Paste方法忽略源图像和目标图像之间上下文相关性的问题，导致生成的输出不一致的挑战。
关键思路

论文提出一种基于双向潜在信息传播（BLIP）的上下文感知方法，用于从源图像中提取内容信息，并通过匹配提取的内容信息和类别信息，使用Segment Anything Model（SAM）和You Only Look Once（YOLO）确保目标对象的一致性集成。
其它亮点

论文的方法不需要手动注释，提供了自动化和用户友好的解决方案。实验结果表明，该方法在增强数据多样性和生成各种计算机视觉任务的高质量伪图像方面非常有效。
相关研究

在最近的相关研究中，还有一些关于数据增强的方法，例如Cutout、Mixup等。

Enrich the content of the image Using Context-Aware Copy Paste

提问交流

提问交流