- 简介大型二维视觉语言模型(2D-LLMs)通过使用简单的投影仪将大型语言模型(LLMs)与图像相结合,已经引起了重视。受到其成功的启发,大型三维点云语言模型(3D-LLMs)也将点云集成到LLMs中。然而,直接将点云与LLM对齐需要昂贵的训练成本,通常需要在A100上耗费数百个GPU小时,这阻碍了3D-LLMs的发展。在本文中,我们介绍了MiniGPT-3D,这是一个高效而强大的3D-LLM,仅在一个RTX 3090上训练27小时就实现了多个SOTA结果。具体来说,我们建议使用2D-LLMs的2D先验知识将3D点云与LLMs对齐,这可以利用2D和3D视觉信息之间的相似性。我们引入了一种新颖的四阶段训练策略,以级联方式对模态进行对齐,并使用混合查询专家模块以高效地自适应聚合特征。此外,我们利用参数高效的微调方法LoRA和Norm fine-tuning,仅有47.8M可学习参数,这比现有方法少了多达260倍。大量实验证明,MiniGPT-3D在3D对象分类和字幕任务上取得了SOTA的成绩,训练成本显著降低。值得注意的是,与ShapeLLM-13B相比,MiniGPT-3D在具有挑战性的物体字幕任务中的GPT-4评分增加了8.12,而后者在8个A800上总共需要160个GPU小时。我们是首批探索高效3D-LLM的人,为社区提供了新的见解。代码和权重可在https://github.com/TangYuan96/MiniGPT-3D获得。
- 图表
- 解决问题论文旨在提出一种高效的3D点云-语言模型(3D-LLM)方法,以解决直接将3D点云与LLM对齐所需的高昂训练成本问题。
- 关键思路论文提出了一种使用2D-LLMs的2D先验知识来对齐3D点云和LLMs的方法,并采用四阶段训练策略和混合查询专家模块等技术来提高模型效率。
- 其它亮点论文提出的MiniGPT-3D方法在只使用一块RTX 3090 GPU进行27小时训练的情况下,取得了多个SOTA结果,并且使用的可调参数数量只有47.8M,比现有方法少了260倍。实验结果表明,MiniGPT-3D在3D物体分类和字幕生成任务上取得了SOTA结果,而训练成本显著降低。此外,论文还提供了代码和权重。
- 最近的相关研究包括ShapeLLM-13B、Large 2D vision-language models等。
沙发等你来抢
去评论
评论
沙发等你来抢