Promoting AI Equity in Science: Generalized Domain Prompt Learning for Accessible VLM Research

2024年05月14日
  • 简介
    大规模视觉语言模型(VLMs)在自然视觉任务中展现了出色的性能,激励着各个领域的研究人员探索特定领域的VLMs。然而,构建强大的特定领域VLMs需要大量的注释数据、大量的电力能源和计算资源,这些资源主要由工业界掌握,阻碍了学术界对VLM研究的开展。为了应对这一挑战,促进可持续和公平的VLM研究,我们提出了广义域提示学习(GDPL)框架。GDPL框架通过利用小规模的特定领域基础模型和最少的提示样本,使VLMs的强大识别能力从自然视觉转移到专业领域,无需大量的数据或资源。通过使用四元数网络,GDPL框架使语言分支具备领域知识,揭示了领域特定视觉特征和基于自然视觉的上下文嵌入之间的跨模态关系。同时,GDPL框架通过基于匹配良好的视觉-语言关系的层次传播生成的视觉提示特征,引导视觉分支进入特定领域。此外,为了充分发挥VLMs的领域适应潜力,我们引入了一种新的低秩适应方法。在遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域的广泛实验验证了GDPL框架的有效性,并展示了其在提示学习范式下实现最先进的领域识别性能的能力。我们的框架为可持续和包容性的VLM研究铺平了道路,跨越了学术界和工业界之间的障碍。
  • 图表
  • 解决问题
    该论文旨在解决领域特定的大规模视觉-语言模型(VLMs)需要大量标注数据和计算资源的问题,提出了一种名为GDPL的通用领域提示学习框架,可以在不需要大量数据和资源的情况下将VLMs的强大识别能力从自然视觉转移到专业领域。
  • 关键思路
    GDPL框架通过小规模的领域特定基础模型和最小的提示样本来赋予语言分支领域知识,通过四元数网络揭示领域特定视觉特征和自然视觉上下文嵌入之间的跨模态关系。同时,通过生成的视觉提示特征的分层传播,GDPL框架将视觉分支引导到特定的领域中。此外,该论文还引入了一种新颖的低秩适应方法。
  • 其它亮点
    该论文在遥感、医学成像、地质学、合成孔径雷达和流体动力学等不同领域进行了广泛的实验,验证了GDPL框架的有效性,并在提示学习范式下实现了最先进的领域识别性能。该框架为可持续和包容性的VLM研究铺平了道路,突破了学术界和工业界之间的障碍。
  • 相关研究
    与此相关的最近研究包括《Vision-and-Language Navigation: Interpreting visually-grounded navigation instructions in real environments》、《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论