Improving 2D Feature Representations by 3D-Aware Fine-Tuning

2024年07月29日
  • 简介
    目前的视觉基础模型仅基于非结构化的2D数据进行训练,限制了它们对物体和场景3D结构的理解。在这项工作中,我们展示了在3D感知数据上微调可以提高新兴语义特征的质量。我们设计了一种方法,将语义2D特征提升为高效的3D高斯表示,这使我们能够为任意视角重新渲染它们。使用渲染的3D感知特征,我们设计了一种微调策略,将这种3D感知转移到2D基础模型中。我们证明,以这种方式微调的模型产生的特征可通过简单的线性探测显著提高语义分割和深度估计的下游任务性能。值得注意的是,尽管在单个室内数据集上进行了微调,但这种改进是可转移的,适用于各种室内数据集和跨领域数据集。我们希望我们的研究能鼓励社区在训练2D基础模型时考虑注入3D感知。项目页面:https://ywyue.github.io/FiT3D。
  • 图表
  • 解决问题
    如何通过在2D数据中注入3D信息来提高2D基础模型的性能?
  • 关键思路
    将2D语义特征转化为高效的3D高斯表示,并使用渲染后的3D感知特征对2D基础模型进行微调,以提高其性能。
  • 其它亮点
    论文展示了将3D信息注入2D基础模型的方法,可以通过简单的线性探测器提高语义分割和深度估计等下游任务的性能。该方法在单个室内数据集上进行了微调,但其改进效果可以迁移到各种室内和跨领域数据集中。
  • 相关研究
    最近的相关研究包括使用3D卷积神经网络进行语义分割和深度估计,以及使用3D渲染技术进行数据增强。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论