- 简介最近预训练基础视觉-语言模型的成功使得开放词汇分割(OVS)成为可能。尽管表现有所改善,但是这种方法引入了两个挑战的重大计算开销:1)骨干模型的大型模型尺寸;2)微调期间的昂贵成本。这些挑战阻碍了这种OVS策略在现实场景中的广泛应用和可负担性。虽然传统方法如模型压缩和高效微调可以解决这些挑战,但它们通常依赖于启发式方法。这意味着它们的解决方案不能轻松地转移,并需要在不同的模型上重新训练,这是有成本的。在高效的OVS环境中,我们旨在利用产生较低训练成本的较小模型,实现与基于大型视觉-语言基础模型的先前OVS作品相当甚至更好的性能。核心策略是使我们的效率原则化,从而可以在不需要进一步定制的情况下无缝地转移到其他OVS框架中。对各种OVS基准的全面实验表明,我们在分割准确性和计算成本之间取得了优越的折衷,超过了以前的作品。我们的代码可在https://github.com/Xujxyang/OpenTrans上找到。
- 图表
- 解决问题本论文旨在解决基于预训练视觉语言模型的开放词汇分割(OVS)策略存在的计算开销大的问题,通过使用较小的模型来实现与先前基于大型视觉语言基础模型的OVS工作相当甚至更好的性能。
- 关键思路通过使用更小的模型来减少训练成本和计算开销,并提出一种基于原则的高效OVS策略,以在不同的OVS框架之间无缝转移。
- 其它亮点论文使用多个OVS基准测试进行全面实验,证明了其在分割精度和计算成本之间具有优越的权衡。研究还开源了代码,并提供了可重复的实验结果。
- 最近的相关研究包括:1.《Unified Vision-Language Pre-Training for Image Captioning and VQA》;2.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》;3.《Large Scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline》。
沙发等你来抢
去评论
评论
沙发等你来抢