Cube: A Roblox View of 3D Intelligence

2025年03月19日
  • 简介
    在大量数据上训练的基础模型已经在文本、图像、音频和视频等领域展现出卓越的推理和生成能力。我们在Roblox的目标是构建一个针对3D智能的基础模型,该模型能够支持开发者生成Roblox体验的所有方面,从生成3D对象和场景,到为角色设置动画绑定,再到生成描述物体行为的程序化脚本。我们讨论了构建这样一个3D基础模型的三个关键设计要求,并介绍了我们在实现这一目标上的初步尝试。我们预计3D几何形状将成为核心数据类型,并描述了我们的3D形状分词器解决方案。我们展示了如何利用我们的分词方案应用于文本到形状生成、形状到文本生成以及文本到场景生成的任务中。我们还演示了这些应用如何与现有的大型语言模型(LLMs)协作,以进行场景分析和推理。最后,我们通过讨论概述了通往构建完全统一的3D智能基础模型的道路。
  • 图表
  • 解决问题
    论文试图构建一个专门针对3D智能的基础模型,以支持开发者生成3D对象、场景、角色动画以及描述对象行为的脚本。这是一个新问题,因为现有的基础模型主要集中在文本、图像、音频和视频领域,而对3D数据的支持尚处于早期阶段。
  • 关键思路
    论文提出将3D几何形状作为核心数据类型,并设计了一种3D形状分词器(tokenizer)来处理几何数据。通过这种分词方案,模型可以实现从文本到形状、形状到文本以及文本到场景的生成任务。相比现有研究,该方法首次系统性地探索了3D几何数据在多模态生成中的应用,并尝试与大型语言模型(LLMs)结合进行场景分析和推理。
  • 其它亮点
    论文展示了分词器在多个任务中的应用,包括文本到形状生成、形状到文本生成和文本到场景生成。实验设计涵盖了多种3D数据集,但具体数据集名称未明确提及。此外,作者提到未来计划构建一个统一的3D智能基础模型,这为后续研究提供了方向。虽然未提及开源代码,但其提出的3D形状分词器可能成为未来研究的重要工具。
  • 相关研究
    最近的相关研究包括:1) NeRF(Neural Radiance Fields)系列工作,专注于从2D图像重建3D场景;2) PointNet和Point Transformer等研究,探索点云表示的学习;3) DALL·E和Make-A-Scene等多模态生成模型,尽管主要关注2D图像生成,但为3D生成提供了灵感。其他相关标题如《Generative Models for 3D Object Synthesis》和《Learning Representations of 3D Shapes》也值得关注。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论