- 简介Vision-Language Pre-training(VLP)模型,如CLIP,在计算机视觉方面取得了显著成功,特别是在2D图像分布转移方面表现出卓越的鲁棒性。然而,在3D视角变化下,它们的鲁棒性仍然有限,这可能会阻碍实际应用的发展。本文成功地解决了这个问题,同时保持了VLP的原始性能,通过突破两个主要障碍:1)训练数据的稀缺性和2)次优的微调范式。为了解决数据稀缺性,我们构建了Multi-View Caption(MVCap)数据集——一个包含100K多个对象的超过四百万个多视角图像-文本对的全面收集,为VLP模型提供了更多的潜力,以开发可推广的视角不变表示。为了解决现有范式在性能权衡和训练效率方面的限制,我们设计了一种新的微调框架,名为Omniview-Tuning(OVT)。具体而言,OVT通过一种极小极大优化策略引入了交叉视角对齐目标,有效地对齐来自不同视角的相同对象的表示,而不会导致过度拟合。此外,OVT以参数高效的方式微调VLP模型,从而导致最小的计算成本。在各种具有不同架构的VLP模型上进行的广泛实验验证了OVT显着提高了模型对视角转移的鲁棒性,并保持了原始性能,为提高VLP模型的视角不变性建立了先驱性标准。
- 图表
- 解决问题本论文旨在提高视角不变性的VLP模型的鲁棒性,通过构建包含超过100K个对象的四百多万个多视角图像-文本对的MVCap数据集和设计一种名为Omniview-Tuning(OVT)的新的微调框架来解决数据稀缺和微调范式的限制。
- 关键思路OVT框架通过最小化最大化优化策略引入交叉视角对齐目标,有效地对齐来自不同视角的相同对象的表示,而不会导致过拟合。此外,OVT以参数有效的方式微调VLP模型,从而导致最小的计算成本。
- 其它亮点论文构建了一个包含超过100K个对象的四百多万个多视角图像-文本对的MVCap数据集,为VLP模型开发可推广的视角不变表示提供了更多的潜力。OVT框架有效地提高了VLP模型的视角不变性而保持原始性能,为提高VLP模型视角不变性建立了先驱性的标准。
- 最近的相关研究包括:《Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild》、《Learning to Learn from Noisy Labeled Data》、《Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference》等。
沙发等你来抢
去评论
评论
沙发等你来抢