- 简介在真实图像数据集上进行预训练已被广泛证明对提升实例分割性能有效。然而,工业应用面临两大关键挑战:(1)法律和伦理限制,例如 ImageNet 禁止商业使用;(2)由于网络图像与工业图像之间的领域差距,导致模型的迁移能力有限。即使最近的视觉基础模型,包括 Segment Anything Model (SAM),在工业场景中也表现出显著的性能下降。这些挑战引发了两个关键问题:我们是否可以在不依赖真实图像或人工标注的情况下,构建一个适用于工业应用的视觉基础模型?并且,这样的模型是否能够在工业数据集上超越微调后的 SAM? 为了解决这些问题,我们提出了实例核心分割数据集(InsCore),这是一个基于公式驱动监督学习(FDSL)的合成预训练数据集。InsCore 能生成完全标注的实例分割图像,这些图像反映了工业数据的关键特征,包括复杂的遮挡、密集的层次化掩码以及多样的非刚性形状,这些特征与典型的网络图像截然不同。与以往的方法不同,InsCore 不需要真实图像或人工标注。 我们在五个工业数据集上的实验表明,使用 InsCore 预训练的模型在实例分割性能上优于在 COCO 和 ImageNet-21k 上训练的模型,也优于微调后的 SAM,平均提升了 6.2 个百分点。这一结果是通过仅使用 10 万张合成图像实现的,这比 SAM 的 SA-1B 数据集中包含的 1100 万张图像少了一百多倍,从而证明了我们方法的数据效率。这些发现表明,InsCore 是一个适用于工业应用的实用且无版权限制的视觉基础模型。
- 图表
- 解决问题该论文试图解决在工业应用中使用预训练模型进行实例分割时面临的两个关键问题:1) 法律和伦理限制(如ImageNet禁止商业用途);2) 领域差距导致的迁移性能下降。此外,论文探索了是否可以在不依赖真实图像或人工标注的情况下构建适用于工业场景的视觉基础模型,并超越微调后的SAM模型性能。这是一个具有实际意义的新问题,特别是在工业领域。
- 关键思路论文提出了一种名为InsCore的合成预训练数据集,基于公式驱动的监督学习(FDSL)生成完全标注的实例分割图像。这些图像能够反映工业数据的关键特征,例如复杂的遮挡、密集的层次掩码和多样的非刚性形状。与传统方法不同,InsCore无需真实图像或人工标注,从而避免了法律和伦理问题,并提高了对工业数据的适应性。这种方法在思路和实现上都具有创新性,尤其是在高效利用合成数据方面。
- 其它亮点论文通过五个工业数据集的实验验证了InsCore的有效性,结果表明使用InsCore预训练的模型显著优于基于COCO和ImageNet-21k预训练的模型,以及微调后的SAM模型,平均提升了6.2个百分点。值得注意的是,InsCore仅使用了10万张合成图像,远少于SAM使用的1100万张图像,证明了其数据效率。此外,论文强调了InsCore的开源潜力和无版权限制特性,使其成为工业应用的理想选择。未来可以进一步研究如何扩展InsCore以支持更多类型的工业任务。
- 近年来,关于合成数据在计算机视觉中的应用已有较多研究。例如,《Synthetic Data for Object Detection: A Comparative Study》探讨了合成数据在目标检测中的作用;《Domain Adaptation for Instance Segmentation via Synthetic Data》研究了通过合成数据缩小领域差距的方法。此外,Segment Anything Model (SAM) 和其他大规模预训练模型(如CLIP和BEiT)也推动了视觉基础模型的发展。然而,这些工作大多集中于通用场景,而InsCore专注于工业应用的独特需求,填补了这一领域的空白。
沙发等你来抢
去评论
评论
沙发等你来抢