EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

2025年02月10日
  • 简介
    现有的无编码器视觉-语言模型(VLMs)正在迅速缩小与基于编码器的同类模型之间的性能差距,突显了结构简单且部署高效的统一多模态系统的巨大潜力。我们系统地阐明了使用预训练视觉编码器、离散分词器和从零开始的极简视觉层的VLMs之间的性能差距,深入挖掘了未充分研究的无编码器VLMs的特性。我们为无编码器VLMs开发了能与主流基于编码器的模型相媲美的高效策略。经过深入研究,我们推出了EVEv2.0,这是一个改进的新一代无编码器VLM系列。我们的研究表明:(i)在统一模型中适当地分解并层次化关联视觉和语言可以减少模态间的干扰。(ii)精心设计的训练策略能够实现无编码器VLMs的有效优化。通过广泛的评估,我们的EVEv2.0代表了跨模态开发仅解码器架构的全面研究,展示了卓越的数据效率和强大的视觉推理能力。代码已公开发布在:https://github.com/baaivision/EVE。
  • 作者讲解
  • 图表
  • 解决问题
    该论文试图解决现有视觉-语言模型(VLMs)中依赖预训练视觉编码器的问题,验证是否可以通过移除编码器并采用更简单的结构来实现与现有编码器基模型相媲美甚至超越的性能。这是一个相对较新的问题,因为大多数现有的VLMs仍然依赖于复杂的编码器结构。
  • 关键思路
    关键思路在于开发和优化无编码器的VLMs(EVEv2.0),通过适当分解和层次化关联视觉和语言模态,减少模态间的干扰,并设计有效的训练策略以确保模型的有效优化。相比当前研究,这篇论文的新意在于它系统地探讨了无编码器VLMs的潜力,并提出了具体的改进方法,使这些模型在性能上可以匹敌甚至超过传统的编码器-解码器架构。
  • 其它亮点
    论文的亮点包括:(i) 提出了EVEv2.0这一新型无编码器VLM家族;(ii) 强调了适当的视觉和语言分层关联的重要性;(iii) 设计了一套有效的训练策略;(iv) 展示了新模型在数据效率和视觉推理能力上的优越性。实验设计涵盖了广泛的评估,使用了多个标准数据集进行测试。此外,作者还开源了代码,鼓励进一步的研究和发展。
  • 相关研究
    近期相关研究包括:《Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books》、《ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision》、《 Florence: A Unified Vision-Language Foundation Model 》等。这些研究都在探索如何更好地结合视觉和语言信息,但大多仍依赖于复杂的编码器结构。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问