Tiny LVLM-eHub: Early Multimodal Experiments with Bard
论文摘要:这篇文章介绍了一个名为Tiny LVLM-eHub的轻量级大视觉语言模型(LVLM)的多模态实验,重点评估了Google的Bard在多模态方面的能力。与原始版本相比,Tiny LVLM-eHub具有几个优点。首先,它通过对42个标准的文本相关视觉基准的定量评估,系统地评估了LVLM的六个多模态能力类别,包括视觉感知、视觉知识获取、视觉推理、视觉常识、物体幻觉和具身智能。其次,它使用ChatGPT Ensemble Evaluation(CEE)对LVLM的预测进行了深入分析,相比于单纯的词匹配方法,这种方法更加准确和可靠。第三,它只包含了2100个图像-文本对,为从业者评估自己的离线LVLM提供了便利。通过广泛的实验分析,这项研究表明,Bard在大多数多模态能力方面优于以前的LVLM,但在物体幻觉方面仍有待提高。Tiny LVLM-eHub为各种LVLM提供了基准评估,并鼓励创新策略以推进多模态技术。该项目可在\url{https://github.com/OpenGVLab/Multi-Modality-Arena}上公开获取。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢