不知道如何提高视觉语言大模型？浙大与联汇研究院提出新型多维度评测框架

视觉语言预训练是多机器学习研究的一项基本任务。最近，由于多模态 Transformer 的出现和大型匹配图像文本语料库的可用性，VLP 取得了快速进展。许多的 VLP 模型有助于实现各种下游多模态任务的最先进性能，包括视觉 QA、多模态检索、视觉 Grounding 等。另一方面，当前评估 VLP 模型的实际方法是通过比较其微调的下游任务性能。然而，基于下游任务的基准 VLP 模型有许多局限性：

1. 可解释性差：下游任务很复杂，依赖于许多相互交织的能力，因此它只提供一个黑盒子得分，很难解释。例如，目前仍然不清楚如何改进在视觉 QA 方面表现出色但在图像检索中表现不佳的 VLP 模型。

2. 不可比较的结果：不同的工作可能会选择不同的任务进行评估，这使得比较困难。这是因为一些 VLP 模型与某些任务不兼容，例如 CLIP 无法直接针对视觉 QA 进行微调。

3. 数据偏置：下游数据分布不全面，因此实际性能可能被高估。此外，不能知道模型是否对输入噪声具有鲁棒性，例如用同义词替换动词。

论文链接：https://arxiv.org/pdf/2207.00221.pdf

代码链接：https://github.com/om-ai-lab/vl-checklist

既然基于下游任务的评测方法有这么多局限性，那有没有什么办法来解决呢？那当然有啦！本文就提出了 VL-CheckList 方法，这是一个可解释的框架，全面评估 VLP 模型，有助于加深理解并激发新的改进想法。VLCheckList 的核心原则主要有三点：

1. 评估VLP模型的基本能力，而不是下游应用的性能：基于这一点，作者选择图像文本匹配（ITM）作为主要评估目标，因为它可能是所有VLP方法中最有效的预训练目标。

2. 将能力分解为更易于分析的相对独立的变量：基于这一点，作者提出了一种分类法，将 VLP 系统的功能分为三类：对象、属性和关系。然后将每个类进一步划分为更细粒度的变量，例如属性由颜色、材料和大小等组成。

3. 语言感知的负样本采样策略，以创建难例负样本：这用于验证 VLP 模型对输入空间中微小变化的识别能力。

最后，基于以上几点，作者提出了预训练模型的测评工具 VL-CheckList，研究者都可以轻松地插入他们的评估预训练模型。在本文中，作者通过分析 7 种流行的 VLP 模型验证了所提出的方法，包括双编码器模型、基于区域的 VLP 模型和端到端 VLP 模型。作者采用了四个数据集（VG、SWIG、VAW 和 HAKE）来生成能力特定评估测试集。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

不知道如何提高视觉语言大模型？浙大与联汇研究院提出新型多维度评测框架

评论列表

评论