- 简介我们的目标是开发一种基于模型的规划框架,该框架能够随着模型和数据预算的增加而扩展,用于仅依赖语言和视觉输入的一般目的操作任务。为此,我们提出了以流为中心的生成规划(FLIP),这是一种在视觉空间上的基于模型的规划算法,具有三个关键模块:1. 多模态流生成模型作为通用动作提案模块;2. 流条件视频生成模型作为动态模块;3. 视觉-语言表示学习模型作为价值模块。给定初始图像和语言指令作为目标,FLIP 可以逐步搜索最大化折现回报的长时序流和视频计划,以完成任务。FLIP 能够合成跨越物体、机器人和任务的长时序计划,以图像流作为通用动作表示,密集的流信息也为长时序视频生成提供了丰富的指导。此外,合成的流和视频计划可以引导低级控制策略的训练,以实现机器人的执行。在各种基准测试中的实验表明,FLIP 既提高了长时序视频计划合成的成功率和质量,又具备交互式世界模型的特性,为未来的工作开辟了更广泛的应用前景。
-
- 图表
- 解决问题该论文旨在解决如何开发一个可扩展的世界模型框架,以适应增加的模型和数据预算,用于仅基于语言和视觉输入的一般目的操纵任务。这是一个具有挑战性的问题,因为现有的方法在处理长时域规划和多模态信息融合方面存在局限。
- 关键思路论文提出了FLow-centric generative Planning (FLIP),这是一种基于模型的规划算法,它在视觉空间上运行,并包含三个核心模块:1) 多模态流生成模型作为通用动作提议模块;2) 流条件视频生成模型作为动态模块;3) 视觉-语言表示学习模型作为价值模块。FLIP能够通过逐步搜索最大化折扣回报的长时域流和视频计划来完成任务,使用图像流作为通用动作表示。
- 其它亮点论文展示了FLIP在多个基准测试中的表现,证明了其在提高长时域视频计划合成的成功率和质量方面的有效性。此外,FLIP具备交互式世界模型属性,为未来的研究提供了广泛的应用前景。实验设计包括了多样化的基准测试,使用的数据集涵盖了多种对象、机器人和任务。论文还提到了开源代码的可能性,这将有助于其他研究者复现和进一步改进该方法。
- 近年来,关于模型预测控制、多模态学习和视觉规划的研究逐渐增多。例如,《Hierarchical Text-Conditioned Image Generation》探讨了文本条件下的图像生成,《Learning Latent Plans from Play》研究了从游戏中学习潜在计划的方法,《Visual Foresight for Physical Interaction》则关注于物理交互中的视觉预见能力。这些研究都为FLIP的发展提供了重要的参考和基础。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流