- 简介本文提出了一个新颖的3D AIGC(Artificial Intelligence Generated Content)设置:从IDEA中生成3D内容。IDEA的定义是包括文本、图像和3D模型在内的多模态输入组合。据我们所知,这个具有挑战性和吸引力的3D AIGC设置以前没有被研究过。我们提出了名为Idea-2-3D的新框架来实现这一目标,它由三个基于大型多模型模型(LMMs)和几个现有算法工具的代理组成,以调用它们。具体来说,这三个基于LMM的代理被促使完成提示生成、模型选择和反馈反思的工作。它们在一个循环中工作,涉及相互合作和批评。请注意,这个循环是完全自动完成的,没有任何人为干预。然后,该框架输出一个文本提示,生成与输入IDEA相吻合的3D模型。我们展示了令人印象深刻的3D AIGC结果,超出了以前任何方法所能实现的范围。为了进行定量比较,我们使用一整套最先进的3D AIGC模型构建基于标题的基线,并展示Idea-2-3D明显优于基线。在94.2%的情况下,Idea-2-3D满足用户的要求,标志着IDEA和3D模型之间的匹配程度比基线高2.3倍。此外,在93.5%的情况下,用户认为Idea-2-3D比基线更好。代码、数据和模型将公开发布。
-
- 图表
- 解决问题本文旨在解决一个新的3D AIGC问题:如何从IDEA中生成3D内容?
- 关键思路本文提出了一个名为Idea-2-3D的框架,包括三个基于大型多模型模型(LMMs)的代理,它们在自动化的情况下相互协作和批判,以生成与输入IDEA相匹配的3D模型。
- 其它亮点实验结果表明,Idea-2-3D在94.2%的情况下满足用户需求,匹配度比基线高2.3倍,在93.5%的情况下用户认为Idea-2-3D比基线更好。研究使用了多个数据集,并开源了代码、数据和模型。
- 最近的相关研究包括:Generating 3D models from textual descriptions using attention-based LSTM, Learning to generate 3D shapes with conditional GANs, Generating 3D models from single images using variational autoencoders.
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流