图像分割技术是计算机视觉领域的重要研究方向,也是该领域其他应用的一个重要前期步骤。近些年来,随着深度学习技术的逐步深入,图像分割技术有了突飞猛进的发展,尤其在场景物体分割、人体背景分割、三维重建等技术在无人驾驶、增强现实等城市数字化领域得到了广泛应用。

而近日,特斯联科技集团首席科学家邵岭博士及团队提出具有语义对齐的多级表征学习框架解决指定视频目标分割(Referring Video Object Segmentation, RVOS)中存在的问题,且相关研究成果(标题为: Multi-Level Representation Learning with Semantic Alignment for Referring Video Object Segmentation)已被2022年的人工智能领域顶级会议CVPR(国际计算机视觉与模式识别会议)收录。

总体而言,该项研究突破可概括为三个方面:

首先,提出了一个基于多级表征学习的RVOS新框架。它通过更丰富、更结构化的视频表征,排除了单帧建模的局限性,保证了更加精准的语言-视觉语义对齐;

第二,引入了动态语义对齐(DSA),它在匹配语言语义与不同级别的视觉表征时采用了更有效的自适应对齐;

第三,该方法在两个具有挑战性的数据集上实现了引人注目的表现,包括Refer-DAVIS17和Refer-YouTube-VOS。值得注意的是,对于Refer-DAVIS17上的J,该方法比最好的单帧建模方法获得了6.6%的显著提升,同时在两个数据集上实现了53.2FPS的高推理速度。

内容中包含的图片若涉及版权问题,请及时与我们联系删除