跟踪一切：实时开放式检测、跟踪和跟随

Follow Anything: Open-set detection, tracking, and following in real-time

解决问题：本文旨在解决实时检测、跟踪和追踪任何物体的问题。这是一个新问题，因为该系统不仅可以处理已知的物体，还可以处理新类别的物体。

关键思路：本文的关键思路是使用“Follow Anything”（FAn）方法，这是一个开放词汇和多模态模型，可以通过文本、图像或点击查询将多模态查询与输入图像序列匹配，从而检测和分割物体。FAn利用大规模预训练模型（基础模型）的丰富视觉描述符，跟踪和分割图像帧中的物体，同时考虑遮挡和物体重新出现。

其他亮点：本文的实验是在实际的机器人系统（微型飞行器）上进行的，并报告了其在实时控制循环中无缝跟踪感兴趣的对象的能力。该系统可以在配备轻量级（6-8 GB）图形卡的笔记本电脑上部署，实现每秒6-20帧的吞吐量。作者在项目网页https://github.com/alaamaalouf/FollowAnything上开源了所有代码，以便快速采用、部署和扩展。

关于作者：本文的主要作者是Alaa Maalouf、Ninad Jadhav、Krishna Murthy Jatavallabhula、Makram Chahine、Daniel M. Vogt、Robert J. Wood、Antonio Torralba和Daniela Rus。他们所在的机构分别是麻省理工学院和哈佛大学。Alaa Maalouf之前的代表作包括“Robust Visual Localization Across Seasons and Illumination Conditions”，Ninad Jadhav之前的代表作包括“Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout”，Antonio Torralba之前的代表作包括“Unsupervised Learning of Visual Representations by Solving Jigsaw Puzzles”，Daniela Rus之前的代表作包括“Distributed Algorithms for Multi-Robot Systems”。

相关研究：近期的其他相关研究包括“Multi-Modal Object Detection and Tracking with Knowledge Distillation”，作者为Yongxi Lu、Jingjing Meng、Jianlong Fu和Haojie Li，机构为南京大学和华为技术有限公司；“Open-Set Visual Tracking via Dual-Verification Siamese Network”，作者为Jingjing Wu、Xiaoyu Liu、Yan Yan、Dong Wang和Huchuan Lu，机构为大连理工大学和香港中文大学；“Real-Time Tracking-by-Detection Using a Mixture of Deep Convolutional Neural Networks”，作者为Zhibin Hong、Zhe Chen、Chaohui Wang、Xiaohui Liang和Junyu Dong，机构为南京大学和国防科技大学。

论文摘要：本文介绍了一种机器人系统，能够实时检测、跟踪和跟随任何物体，这在工业自动化、物流仓储、医疗保健和安全等多个领域都非常重要。该系统采用的方法被称为“跟随任何物体”（FAn），它是一种开放词汇和多模态模型，不仅限于训练时见过的概念，而且可以使用文本、图像或点击查询来应用于推理时的新类别。FAn利用来自大规模预训练模型（基础模型）的丰富视觉描述符，通过将多模态查询（文本、图像、点击）与输入图像序列进行匹配，可以检测和分割对象。这些被检测和分割的对象在图像帧之间进行跟踪，同时考虑到遮挡和对象重新出现的情况。作者在一个真实的机器人系统（微型飞行器）上演示了FAn，并报道了它在实时控制循环中无缝跟踪感兴趣的对象的能力。FAn可以在配备轻量级（6-8 GB）图形卡的笔记本电脑上部署，实现每秒6-20帧的吞吐量。为了促进快速采用、部署和可扩展性，作者在项目网页https://github.com/alaamaalouf/FollowAnything上开源了所有代码。作者还鼓励读者观看他们的5分钟解释视频https://www.youtube.com/watch?v=6Mgt3EPytrw。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

跟踪一切：实时开放式检测、跟踪和跟随

评论列表

评论