RAP: Retrieval-Augmented Planner for Adaptive Procedure Planning in Instructional Videos

向作者提问

NEW

简介

在教学视频中进行程序规划涉及根据初始状态和目标状态的视觉观察生成一系列行动步骤。尽管这项任务取得了快速进展，但仍存在几个关键挑战需要解决：（1）自适应程序：以前的工作持有一个不现实的假设，即行动步骤的数量已知且固定，导致在实际情况下，序列长度不同的情况下无法推广的模型；（2）时间关系：理解步骤时间关系知识对于制定合理可执行的计划至关重要；（3）注释成本：用步骤级标签（即时间戳）或序列级标签（即行动类别）注释教学视频是一项要求高、劳动密集的工作，限制了其在大规模数据集上的通用性。在本文中，我们提出了一种新的实用设置，称为自适应程序规划教学视频，其中程序长度不是固定的或预先确定的。为了解决这些挑战，我们引入了检索增强规划器（RAP）模型。具体而言，对于自适应程序，RAP使用自回归模型架构自适应地确定行动的结论。对于时间关系，RAP建立了一个外部存储器模块，以明确地从训练视频中检索出最相关的状态-行动对，并修订生成的程序。为了应对高注释成本，RAP利用弱监督学习方式，通过为行动步骤生成伪标签，将训练数据集扩展到其他任务相关的未注释视频。在CrossTask和COIN基准测试中的实验结果表明，RAP比传统的固定长度模型更具优势，成为自适应程序规划的强有力基线解决方案。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决教学视频中的过程规划问题，其中包括自适应过程、时间关系和注释成本等挑战。
关键思路

本文提出了一种新的实用设置，称为自适应过程规划，其中过程长度不是固定或预先确定的。为了解决这些挑战，本文引入了检索增强规划器（RAP）模型。RAP采用自回归模型架构自适应地确定操作的结论；建立外部存储器模块以从训练视频中检索最相关的状态-操作对并修订生成的过程；利用弱监督学习方式为行动步骤生成伪标签，扩展训练数据集。
其它亮点

本文在CrossTask和COIN基准测试上进行了实验，证明了RAP比传统的固定长度模型具有更好的性能，成为自适应过程规划的强有力基线解决方案。
相关研究

与本文相关的研究包括：《Learning to Follow Natural Language Directions in Unknown Environments》、《A Hierarchical Task Network Planner for Continuous and Non-Continuous Robot Tasks》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问