- 简介文本生成视频模型已经展示了在机器人决策中具有巨大潜力,能够想象未来行动的真实计划以及精确的环境模拟。然而,这种模型存在一个主要问题,即泛化——模型仅限于合成与训练时类似的语言指令所描述的视频。这在决策制定中具有严重的限制,因为我们需要一个强大的世界模型,以合成未见过的物体和动作组合的计划,以便在新环境中解决以前未见过的任务。为了解决这个问题,我们介绍了RoboDreamer,一种通过分解视频生成来学习组合世界模型的创新方法。我们利用语言的自然组合性将指令解析为一组较低级别的基元,我们对这些基元进行条件设置以生成视频。我们说明了这种分解自然地实现了组合泛化,因为它允许我们将新的自然语言指令表述为之前看到的组件的组合。我们进一步展示了这种分解如何使我们能够添加额外的多模态目标,从而使我们能够指定我们希望生成的视频,同时给定自然语言指令和目标图像。我们的方法可以成功地在RT-X上合成未见过的目标的视频计划,在模拟中实现成功的机器人执行,并且在视频生成方面明显优于整体基线方法。
- 图表
- 解决问题论文旨在解决文本到视频模型中的泛化问题,即模型限制于合成类似于训练时所见语言指令的视频,难以处理新组合的对象和动作,以及在新环境中解决以前未见过的任务。
- 关键思路RoboDreamer是一种创新的方法,通过分解视频生成来学习组合世界模型。利用语言的自然组合性将指令解析为一组低级原语,然后将一组模型置于这些原语上进行条件生成视频。这种分解自然地实现了组合泛化,允许我们将新的自然语言指令公式化为先前看到的组件的组合。
- 其它亮点论文展示了该方法的实验结果,包括在RT-X上成功合成未见目标的视频计划,以及在模拟中成功执行机器人任务。RoboDreamer还能够添加额外的多模态目标,以便在自然语言指令和目标图像的同时生成所需的视频。实验数据集和代码已开源。
- 最近在这个领域中,还有一些相关研究,包括《Text-to-Video Generation Grounded by Fine-Grained User Attention》和《Composing Text and Image for Image Retrieval - An Empirical Odyssey》。
沙发等你来抢
去评论
评论
沙发等你来抢