Follow Anything: Open-set detection, tracking, and following in real-time

解决问题:本文旨在解决实时检测、跟踪和追踪任何物体的问题。这是一个新问题,因为该系统不仅可以处理已知的物体,还可以处理新类别的物体。

关键思路:本文的关键思路是使用“Follow Anything”(FAn)方法,这是一个开放词汇和多模态模型,可以通过文本、图像或点击查询将多模态查询与输入图像序列匹配,从而检测和分割物体。FAn利用大规模预训练模型(基础模型)的丰富视觉描述符,跟踪和分割图像帧中的物体,同时考虑遮挡和物体重新出现。

其他亮点:本文的实验是在实际的机器人系统(微型飞行器)上进行的,并报告了其在实时控制循环中无缝跟踪感兴趣的对象的能力。该系统可以在配备轻量级(6-8 GB)图形卡的笔记本电脑上部署,实现每秒6-20帧的吞吐量。作者在项目网页https://github.com/alaamaalouf/FollowAnything上开源了所有代码,以便快速采用、部署和扩展。

关于作者:本文的主要作者是Alaa Maalouf、Ninad Jadhav、Krishna Murthy Jatavallabhula、Makram Chahine、Daniel M. Vogt、Robert J. Wood、Antonio Torralba和Daniela Rus。他们所在的机构分别是麻省理工学院和哈佛大学。Alaa Maalouf之前的代表作包括“Robust Visual Localization Across Seasons and Illumination Conditions”,Ninad Jadhav之前的代表作包括“Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout”,Antonio Torralba之前的代表作包括“Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles”,Daniela Rus之前的代表作包括“Distributed Algorithms for Multi-Robot Systems”。

相关研究:近期的其他相关研究包括“Multi-Modal Object Detection and Tracking with Knowledge Distillation”,作者为Yongxi Lu、Jingjing Meng、Jianlong Fu和Haojie Li,机构为南京大学和华为技术有限公司;“Open-Set Visual Tracking via Dual-Verification Siamese Network”,作者为Jingjing Wu、Xiaoyu Liu、Yan Yan、Dong Wang和Huchuan Lu,机构为大连理工大学和香港中文大学;“Real-Time Tracking-by-Detection Using a Mixture of Deep Convolutional Neural Networks”,作者为Zhibin Hong、Zhe Chen、Chaohui Wang、Xiaohui Liang和Junyu Dong,机构为南京大学和国防科技大学。

论文摘要:本文介绍了一种机器人系统,能够实时检测、跟踪和跟随任何物体,这在工业自动化、物流仓储、医疗保健和安全等多个领域都非常重要。该系统采用的方法被称为“跟随任何物体”(FAn),它是一种开放词汇和多模态模型,不仅限于训练时见过的概念,而且可以使用文本、图像或点击查询来应用于推理时的新类别。FAn利用来自大规模预训练模型(基础模型)的丰富视觉描述符,通过将多模态查询(文本、图像、点击)与输入图像序列进行匹配,可以检测和分割对象。这些被检测和分割的对象在图像帧之间进行跟踪,同时考虑到遮挡和对象重新出现的情况。作者在一个真实的机器人系统(微型飞行器)上演示了FAn,并报道了它在实时控制循环中无缝跟踪感兴趣的对象的能力。FAn可以在配备轻量级(6-8 GB)图形卡的笔记本电脑上部署,实现每秒6-20帧的吞吐量。为了促进快速采用、部署和可扩展性,作者在项目网页https://github.com/alaamaalouf/FollowAnything上开源了所有代码。作者还鼓励读者观看他们的5分钟解释视频https://www.youtube.com/watch?v=6Mgt3EPytrw。

内容中包含的图片若涉及版权问题,请及时与我们联系删除