URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images

向作者提问

NEW

简介

构建既具有视觉又具有物理实现的仿真场景是一个实际问题，涉及到从机器人到计算机视觉等各个领域。随着研究人员使用大数据学习方法寻找物理决策系统的新数据来源，这个问题变得更加重要。然而，构建仿真模型通常仍然需要手工完成。一名图形设计师和一名仿真工程师使用预定义的资源来构建具有逼真动态和运动学特性的丰富场景。虽然这可以扩展到少量场景，但为了实现数据驱动的机器人控制所需的泛化属性，我们需要一个能够合成大量逼真场景的流水线，包括“自然”的运动学和动力学结构。为了解决这个问题，我们开发了从自然图像推断结构并生成仿真场景的模型，允许从网络规模的数据集中进行可扩展的场景生成。为了训练这些图像到仿真模型，我们展示了可控制的文本到图像生成模型如何用于生成成对的训练数据，允许建模反问题，从逼真图像映射回完整的场景模型。我们展示了这种范式如何允许我们在仿真中构建具有语义和物理逼真度的大型场景数据集。我们提出了一个集成的端到端流水线，可以从现实世界图像中生成具有关节运动学和动力学结构的仿真场景，并将其用于训练机器人控制策略。然后我们在现实世界中进行鲁棒部署，例如关节物体操作。通过这样做，我们的工作为大规模生成仿真环境和在结果环境中训练鲁棒机器人控制策略提供了一个流水线。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过从自然图像中生成仿真场景，解决手动构建仿真模型的问题，从而实现大规模的仿真环境生成。
关键思路

论文提出了一种从自然图像中生成仿真场景的模型，利用可控的文本到图像生成模型生成配对的训练数据，然后训练图像到仿真模型的生成模型，最终生成具有语义和物理真实感的大规模仿真环境。
其它亮点

论文设计了一个端到端的流程，从自然图像中生成具有关节运动和动力学结构的仿真场景，并将其用于训练机器人控制策略。实验结果表明，该方法可以生成大规模的具有语义和物理真实感的仿真环境，并用于机器人控制策略的训练。
相关研究

近年来，生成对抗网络（GAN）在图像生成和图像转换领域得到了广泛应用。在生成仿真环境方面，一些研究者使用GAN从真实世界的数据中生成仿真环境。例如，Peng等人使用GAN从真实图像中生成虚拟环境，用于机器人控制策略的训练。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问