- 简介智能代理需要在具有上下文环境的情况下进行自主导航和交互,以执行基于人类级别指令的广泛日常任务。这些代理需要对世界有基础的理解,包括常识和知识,以解释这些指令。此外,它们必须具备精确的低级技能,用于移动和交互,以执行从这些指令中导出的详细任务计划。在这项工作中,我们解决了在上下文环境中操纵大型物体的连续人-物互动合成任务,该任务由人类级别指令指导。我们的目标是生成同步的物体运动,全身人体运动和详细的手指运动,这些都是实现逼真互动所必需的。我们的框架包括一个大型语言模型(LLM)规划模块和一个低级运动生成器。我们使用LLM来推断物体之间的空间关系,并设计了一种准确确定它们在目标场景布局中的位置和方向的方法。此外,LLM规划器概述了一个详细的任务计划,指定了一系列子任务的顺序。这个任务计划以及目标物体的姿态作为我们低级运动生成器的输入,后者无缝地在导航和交互模块之间交替。我们提出了第一个可以同时从人类级别指令中合成物体运动,全身运动和手指运动的完整系统。我们的实验证明了我们的高级规划器在生成合理的目标布局方面的有效性,以及我们的低级运动生成器在为不同物体合成逼真的互动方面的有效性。请参阅我们的项目页面以获取更多结果:https://hoifhli.github.io/。
-
- 图表
- 解决问题论文试图解决从人类级指令中综合生成连续的人-物交互动作的问题,包括物体运动、全身运动和手指运动,以实现更真实的交互体验。
- 关键思路论文的关键思路是将大型语言模型规划模块和低层运动生成器相结合,利用语言模型推断物体空间关系并确定其位置和方向,生成详细的任务计划,并以目标对象姿势为输入,通过低层运动生成器无缝地在导航和交互模块之间切换,实现物体运动、全身运动和手指运动的同时生成。
- 其它亮点论文实现了从人类级指令中综合生成连续的人-物交互动作,是第一个实现物体运动、全身运动和手指运动同时生成的完整系统。实验结果表明,高层规划器可以生成合理的目标布局,低层运动生成器可以为不同的物体合成逼真的交互动作。
- 在这个领域中,与本论文相关的研究包括《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》、《DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流