Human-Object Interaction from Human-Level Instructions

向作者提问

NEW

简介

智能代理需要在具有上下文环境的情况下进行自主导航和交互，以执行基于人类级别指令的广泛日常任务。这些代理需要对世界有基础的理解，包括常识和知识，以解释这些指令。此外，它们必须具备精确的低级技能，用于移动和交互，以执行从这些指令中导出的详细任务计划。在这项工作中，我们解决了在上下文环境中操纵大型物体的连续人-物互动合成任务，该任务由人类级别指令指导。我们的目标是生成同步的物体运动，全身人体运动和详细的手指运动，这些都是实现逼真互动所必需的。我们的框架包括一个大型语言模型（LLM）规划模块和一个低级运动生成器。我们使用LLM来推断物体之间的空间关系，并设计了一种准确确定它们在目标场景布局中的位置和方向的方法。此外，LLM规划器概述了一个详细的任务计划，指定了一系列子任务的顺序。这个任务计划以及目标物体的姿态作为我们低级运动生成器的输入，后者无缝地在导航和交互模块之间交替。我们提出了第一个可以同时从人类级别指令中合成物体运动，全身运动和手指运动的完整系统。我们的实验证明了我们的高级规划器在生成合理的目标布局方面的有效性，以及我们的低级运动生成器在为不同物体合成逼真的互动方面的有效性。请参阅我们的项目页面以获取更多结果：https://hoifhli.github.io/。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决从人类级指令中综合生成连续的人-物交互动作的问题，包括物体运动、全身运动和手指运动，以实现更真实的交互体验。
关键思路

论文的关键思路是将大型语言模型规划模块和低层运动生成器相结合，利用语言模型推断物体空间关系并确定其位置和方向，生成详细的任务计划，并以目标对象姿势为输入，通过低层运动生成器无缝地在导航和交互模块之间切换，实现物体运动、全身运动和手指运动的同时生成。
其它亮点

论文实现了从人类级指令中综合生成连续的人-物交互动作，是第一个实现物体运动、全身运动和手指运动同时生成的完整系统。实验结果表明，高层规划器可以生成合理的目标布局，低层运动生成器可以为不同的物体合成逼真的交互动作。
相关研究

在这个领域中，与本论文相关的研究包括《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》、《DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问