Going Denser with Open-Vocabulary Part Segmentation
解决问题: 本论文旨在解决目标检测面临的开放词汇问题,即从有限的目标类别扩展到开放词汇,同时也要求检测器能够预测目标的部分分割。这是否是一个新问题?是的,这是目标检测领域的一个新问题。
关键思路: 本文的解决方案包括两个关键思路。首先,通过在部分级别、对象级别和图像级别数据上进行训练,建立语言和图像之间的多粒度对齐,从而使检测器能够预测开放词汇对象和它们的部分分割。其次,通过与基本对象的密集语义对应来将新颖对象解析成其部分。这两个设计使检测器能够从各种数据源和基础模型中获益,并且相比当前领域的研究状况,本文的思路具有新意。
其他亮点: 本文的实验使用了PartImageNet和Pascal Part等数据集,并在跨数据集泛化和跨类别泛化方面优于基线方法,同时还训练了一个检测器,能够推广到各种部分分割数据集,并实现比特定数据集训练更好的性能。此外,本文还提供了开源代码。本文的亮点在于提出了一种新的解决方案,能够解决目标检测领域的新问题,并在实验中取得了良好的性能。
关于作者: 本文的主要作者包括Peize Sun、Shoufa Chen、Chenchen Zhu、Fanyi Xiao、Ping Luo、Saining Xie和Zhicheng Yan。他们都来自清华大学和斯坦福大学等知名机构。其中,Saining Xie曾在ImageNet和COCO数据集上提出了一种新的目标检测器,名为Faster R-CNN,该检测器在准确性和速度方面均优于以前的方法。Zhicheng Yan则曾在语义分割领域提出了一种新的解决方案,能够同时预测对象和它们的部分分割。
相关研究: 近期其他相关的研究包括:
- "Learning Open-Vocabulary Object Retrieval and Localization with Dynamic Linguistic Attributes",作者为Jiwen Lu、Gang Wang和Jie Zhou,来自南京大学和Microsoft Research Asia。
- "Object-Driven Multi-Layer Scene Decomposition from a Single Image",作者为Yi Zhu、Karsten Roth和Song-Chun Zhu,来自加州大学洛杉矶分校。
- "Learning to Segment Object Candidates",作者为Xin Li、Yali Wang、Liang Lin和Junjie Yan,来自上海交通大学和Sun Yat-sen大学。
论文摘要:本文提出了一种具有预测开放词汇对象及其部分分割能力的检测器。为了实现完整的智能视觉系统,物体检测已经从有限数量的类别扩展到开放词汇。未来,需要更好地理解物体的细粒度描述,即物体部分。本文的检测器能够实现这一点,其能力来自于两个设计。首先,我们使用部分级别、对象级别和图像级别数据对检测器进行训练,以建立语言和图像之间的多粒度对齐。其次,我们通过基础对象的密集语义对应将新颖对象解析为其部分。这两个设计使检测器能够从各种数据源和基础模型中受益。在开放词汇部分分割实验中,我们的方法在PartImageNet的跨数据集泛化中比基线高出3.3~7.3 mAP,在Pascal Part的跨类别泛化中将基线提高了7.3个新颖AP$_{50}$。最后,我们训练了一个检测器,它可以推广到各种部分分割数据集,同时实现比特定数据集训练更好的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢