- 简介Vision-Language Pre-training(VLP)模型,如CLIP,在计算机视觉方面取得了显著成功,特别是在2D图像分布转移方面表现出卓越的鲁棒性。然而,在3D视角变化下,它们的鲁棒性仍然有限,这可能会阻碍实际应用的发展。本文成功地解决了这个问题,同时保持了VLP的原始性能,通过突破两个主要障碍:1)训练数据的稀缺性和2)次优的微调范式。为了解决数据稀缺性,我们构建了Multi-View Caption(MVCap)数据集——一个包含100K多个对象的超过四百万个多视角图像-文本对的全面收集,为VLP模型提供了更多的潜力,以开发可推广的视角不变表示。为了解决现有范式在性能权衡和训练效率方面的限制,我们设计了一种新的微调框架,名为Omniview-Tuning(OVT)。具体而言,OVT通过一种极小极大优化策略引入了交叉视角对齐目标,有效地对齐来自不同视角的相同对象的表示,而不会导致过度拟合。此外,OVT以参数高效的方式微调VLP模型,从而导致最小的计算成本。在各种具有不同架构的VLP模型上进行的广泛实验验证了OVT显着提高了模型对视角转移的鲁棒性,并保持了原始性能,为提高VLP模型的视角不变性建立了先驱性标准。
- 图表
- 解决问题本论文旨在提高视角不变性的VLP模型的鲁棒性,通过构建包含超过100K个对象的四百多万个多视角图像-文本对的MVCap数据集和设计一种名为Omniview-Tuning(OVT)的新的微调框架来解决数据稀缺和微调范式的限制。
- 关键思路OVT框架通过最小化最大化优化策略引入交叉视角对齐目标,有效地对齐来自不同视角的相同对象的表示,而不会导致过拟合。此外,OVT以参数有效的方式微调VLP模型,从而导致最小的计算成本。
- 其它亮点论文构建了一个包含超过100K个对象的四百多万个多视角图像-文本对的MVCap数据集,为VLP模型开发可推广的视角不变表示提供了更多的潜力。OVT框架有效地提高了VLP模型的视角不变性而保持原始性能,为提高VLP模型视角不变性建立了先驱性的标准。
- 最近的相关研究包括:《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》、《Learning to Learn from Noisy Labeled Data》、《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》等。


提问交流