HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid

向作者提问

NEW

简介

物理人-场景交互在许多应用中都起着至关重要的作用。然而，现有的HSI技术仅适用于特定的物体动态和特权信息，这阻碍了更全面应用的发展。为了解决这个限制，我们引入了HumanVLA，以实用的视觉和语言为导向进行一般物体重新排列。我们利用师生框架开发HumanVLA。首先使用目标条件强化学习和对抗运动先验训练基于状态的教师策略。然后，通过行为克隆将其提炼成视觉-语言-动作模型。我们提出了几个关键见解，以促进大规模学习过程。为了支持物理人类进行一般物体重新排列，我们引入了一个新颖的Human-in-the-Room数据集，包括各种重新排列任务。通过广泛的实验和分析，我们证明了所提出方法的有效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决现有HSI技术的局限性，即只限于特定物体动态和特权信息，阻碍了更全面的应用。作者提出HumanVLA框架，通过实际视觉和语言指导进行通用物体重新排列。
关键思路

作者采用了教师-学生框架，首先使用目标条件强化学习和对抗运动先验训练状态-based教师策略，然后通过行为克隆将其提炼为视觉-语言-动作模型，以实现通用物体重新排列。
其它亮点

论文提出了一个新的HumanVLA框架来解决现有HSI技术的局限性，提出了一个新的数据集Human-in-the-Room，用于支持通用物体重新排列。作者还提出了一些关键见解，以促进大规模学习过程。作者进行了大量实验和分析，证明了所提出方法的有效性。
相关研究

在最近的相关研究中，还有一些相关的研究，如《Learning to Navigate in Cities Without a Map》和《Learning to Learn from Weak Supervision by Full Supervision》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问