MouSi: Poly-Visual-Expert Vision-Language Models

2024年01月30日
  • 简介
    目前,大型视觉语言模型(VLMs)常常遇到一些挑战,例如单个视觉组件能力不足和过长的视觉标记。这些问题可能会限制模型准确解释复杂的视觉信息和过长的上下文信息的效果。解决这些挑战对于提高VLMs的性能和适用性至关重要。本文提出了使用集成专家技术来协同个体视觉编码器的能力,包括擅长图像文本匹配、OCR、图像分割等。该技术引入了融合网络来统一处理来自不同视觉专家的输出,同时弥合了图像编码器和预训练LLMs之间的差距。此外,我们探索了不同的位置编码方案,以减轻由于长图像特征序列而导致的位置编码浪费,有效解决了位置溢出和长度限制的问题。例如,在我们的实现中,该技术将在SAM等模型中的位置占用从显著的4096降至更高效和可管理的64甚至1。实验结果表明,具有多个专家的VLMs表现出比孤立的视觉编码器更为卓越的性能,并且随着更多的专家的整合,性能得到了显著提升。我们已经开源了本文中使用的训练代码。所有这些资源都可以在我们的项目网站上找到。
  • 作者讲解
  • 图表
  • 解决问题
    如何提高大规模视觉-语言模型(VLMs)的性能和适用性?
  • 关键思路
    使用集成专家技术来协同各个单独视觉编码器的能力,并引入融合网络来统一处理来自不同视觉专家的输出,同时弥合图像编码器和预训练LLMs之间的差距。此外,探索不同的位置编码方案,以缓解由于长图像特征序列导致的位置编码浪费问题。
  • 其它亮点
    论文开源了训练代码和资源,并展示了使用多个专家的VLMs相比单独的视觉编码器表现出更好的性能。实验中使用了多个数据集。
  • 相关研究
    最近的相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问