- 简介我们提出了LegoGPT,这是首个通过文本提示生成物理上稳定的乐高积木模型的方法。为了实现这一目标,我们构建了一个大规模的乐高设计数据集,其中包含物理上稳定的乐高模型及其对应的描述性标题,并训练了一个自回归大型语言模型,通过下一步标记预测来预测要添加的下一个积木。为了提高生成设计的稳定性,我们在自回归推理过程中采用了高效的合理性检查和物理感知回滚机制,利用物理定律和组装约束修剪不可行的标记预测。我们的实验表明,LegoGPT能够生成与输入文本提示高度一致的稳定、多样且美观的乐高设计。此外,我们还开发了一种基于文本的乐高纹理生成方法,用于生成带有颜色和纹理的设计。我们证明了这些设计既可以通过人工手动组装,也可以通过机械臂自动完成组装。同时,我们发布了新的数据集StableText2Lego,其中包含超过47,000个乐高结构,涵盖超过28,000个独特的3D对象,并附有详细的描述性标题。相关代码和模型已发布在项目网站上:https://avalovelace1.github.io/LegoGPT/。
-
- 图表
- 解决问题该论文试图解决根据文本提示生成物理上稳定的乐高模型的问题。这是一个新颖的问题,结合了自然语言处理和物理仿真,旨在生成既符合用户需求又可实际搭建的乐高设计。
- 关键思路论文的关键思路是通过构建一个大规模且物理上稳定的乐高设计数据集,并训练一个自回归大语言模型来预测下一个要添加的乐高积木。此外,引入了基于物理规则和装配约束的有效性检查与回滚机制,以确保生成的设计在物理上可行。这种方法结合了语言模型的生成能力和物理仿真的约束条件,具有创新性。
- 其它亮点论文设计了一个名为StableText2Lego的大规模数据集,包含超过47,000个乐高结构和28,000多个独特的3D对象,以及详细的描述性文本。实验表明,生成的乐高设计不仅稳定、多样化,还具有较高的美学价值,并能通过人类或机器人自动组装实现。代码、模型和数据集均已开源,项目网站为https://avalovelace1.github.io/LegoGPT/。未来可以进一步研究如何扩展到更复杂的结构或更多样化的材质纹理。
- 相关研究包括:1) 文本到图像生成模型(如DALL·E、Stable Diffusion);2) 物理仿真与生成模型结合的研究(如PhysGPT);3) 乐高自动设计领域的先前工作(如AutoLego、LEGO-Net)。其他类似研究还包括《Building Stable Structures with Reinforcement Learning》和《Text-to-3D Object Generation with Physical Constraints》。
- 3
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流