- 简介参考表达理解(REC)涉及根据文本描述定位目标实例。最近REC的进展是由大型多模态模型(LMMs)如CogVLM推动的,其在RefCOCO上实现了92.44%的准确率。然而,这项研究质疑现有基准如RefCOCO,RefCOCO +和RefCOCOg是否捕捉到LMMs的全面能力。我们首先手动检查这些基准,揭示高标签错误率:RefCOCO为14%,RefCOCO +为24%,RefCOCOg为5%,这破坏了评估的真实性。我们通过排除问题实例并重新评估几个能够处理REC任务的LMMs来解决这个问题,显示出显着的准确性改进,从而突显出基准噪声的影响。作为回应,我们引入了Ref-L4,这是一个专门设计用于评估现代REC模型的全面REC基准。 Ref-L4具有四个关键特征:1)大样本量,具有45,341个注释;2)多样化的物体类别,包括365种不同类型和从30到3,767的不同实例比例;3)平均长度为24.2个单词的长参考表达式;4)包含22,813个唯一单词的广泛词汇表。我们在Ref-L4上评估了总共24个大型模型并提供了有价值的见解。 RefCOCO,RefCOCO +和RefCOCOg的清理版本以及我们的Ref-L4基准和评估代码可在https://github.com/JierunChen/Ref-L4上获取。
- 图表
- 解决问题论文旨在解决Referring expression comprehension (REC)中现有基准数据集存在的问题,即标注错误率高,无法全面评估现代LMMs的能力。
- 关键思路论文提出了一个名为Ref-L4的全面REC基准数据集,包括大样本量、多样的物体类别、不同尺度的实例、长的指代表达式和广泛的词汇表,以评估现代REC模型的表现。
- 其它亮点论文通过手动检查现有基准数据集,发现标注错误率高,提出了Ref-L4基准数据集,并在该数据集上评估了24种大型模型,提供了有价值的见解。论文还提供了清理后的RefCOCO、RefCOCO+和RefCOCOg版本,以及评估代码,可在GitHub上获取。
- 最近的相关研究包括CogVLM等大型多模型(LMMs),以及其他REC基准数据集,如RefCOCO、RefCOCO+和RefCOCOg。
沙发等你来抢
去评论
评论
沙发等你来抢