MCDS-VSS: Moving Camera Dynamic Scene Video Semantic Segmentation by Filtering with Self-Supervised Geometry and Motion

2024年05月30日
  • 简介
    自动驾驶汽车等自主系统需要可靠的语义环境感知来做出决策。尽管视频语义分割取得了很大进展,但现有方法忽略了重要的归纳偏差,并且缺乏结构化和可解释的内部表示。在这项工作中,我们提出了MCDS-VSS,这是一种结构化的滤波模型,它以自我监督的方式学习估计场景几何和相机自我运动,同时估计外部物体的运动。我们的模型利用这些表示来提高语义分割的时间一致性,而不会牺牲分割的准确性。MCDS-VSS采用预测融合方法,其中场景几何和相机运动首先用于补偿自我运动,然后使用残差流来补偿动态物体的运动,最后将预测的场景特征与当前特征融合,以获得时间上一致的场景分割。我们的模型将汽车场景解析为多个解耦的可解释表示,例如场景几何,自我运动和物体运动。定量评估表明,MCDS-VSS在视频序列上实现了优越的时间一致性,同时保持了竞争性的分割性能。
  • 图表
  • 解决问题
    论文旨在解决自动驾驶等自主系统在决策时需要可靠的语义环境感知的问题。当前的视频语义分割方法存在一些问题,例如忽略了重要的归纳偏差,缺乏结构化和可解释的内部表示等。
  • 关键思路
    论文提出了MCDS-VSS,这是一个结构化的滤波器模型,可以自监督学习来估计场景几何和相机的自我运动,同时估计外部物体的运动。该模型利用这些表示来提高语义分割的时间一致性,而不牺牲分割的准确性。
  • 其它亮点
    MCDS-VSS采用预测融合方法,其中场景几何和相机运动首先用于补偿自我运动,然后剩余的流用于补偿动态物体的运动,最后预测的场景特征与当前特征融合以获得时间上一致的场景分割。该模型将汽车场景解析为多个解耦的可解释表示,例如场景几何,自我运动和物体运动。实验结果表明,MCDS-VSS在保持竞争性分割性能的同时实现了优越的时间一致性。
  • 相关研究
    最近在这个领域中,还有一些相关研究,例如:SfMLearner,DeepVO和GeoNet等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论