- 简介本文提出了一种新的框架,将视觉基础模型(VFM)和离线强化学习(offline RL)相结合,以增强具身视觉跟踪。我们使用预训练的VFM(如“Tracking Anything”)提取文本提示的语义分割掩模。然后,我们使用离线RL(例如保守Q学习)训练一个循环策略网络,从收集的演示中学习,而无需在线代理-环境交互。为了进一步提高策略网络的鲁棒性和泛化性,我们还引入了一个掩模重新定向机制和一个多级数据收集策略。通过这种方式,我们可以在消费级GPU(例如Nvidia RTX 3090)上在一个小时内训练出一个强大的跟踪器。这种效率在基于RL的视觉跟踪方法中是前所未有的。我们在几个高保真度的环境中评估了我们的跟踪器,这些环境具有挑战性的情况,如干扰和遮挡。结果表明,我们的代理在样本效率、对干扰物的鲁棒性和对未见过的情况和目标的泛化能力方面优于现有的最先进方法。我们还展示了从虚拟世界到真实场景的学习跟踪器的可转移性。
- 图表
- 解决问题本篇论文旨在解决在动态3D环境下,以代理人自我中心视角跟踪目标物体的问题。现有方法在训练效率和泛化性能方面存在问题。
- 关键思路本文提出了一种新的框架,将视觉基础模型(VFM)和离线强化学习(offline RL)相结合,以增强代理人的视觉跟踪能力。其中使用预先训练好的VFM提取语义分割掩模,并使用离线RL训练递归策略网络,从收集的演示数据中学习。同时,引入掩模重新定位机制和多级数据收集策略,以进一步提高策略网络的鲁棒性和泛化性能。
- 其它亮点本文的亮点包括:使用了预先训练好的VFM和离线RL,提高了训练效率;引入掩模重新定位机制和多级数据收集策略,提高了跟踪器的鲁棒性和泛化性能;在多个高保真度环境中进行了评估,结果表明,本文的方法在样本效率、对干扰物的鲁棒性以及对未见场景和目标的泛化性能方面均优于现有方法;同时,还展示了所学跟踪器从虚拟世界到实际场景的可迁移性。
- 近期的相关研究包括:Learning to Track Objects with Reinforcement Learning(ICLR 2017);Learning to Track at 100 FPS with Deep Regression Networks(ECCV 2018);Visual Object Tracking for Unmanned Aerial Vehicles: A Benchmark and New Motion Models(T-RO 2019)等。
沙发等你来抢
去评论
评论
沙发等你来抢