- 简介我们介绍了VLMEvalKit:一个基于PyTorch的用于评估大型多模态模型的开源工具包。该工具旨在为研究人员和开发人员提供一个用户友好和全面的框架,以评估现有的多模态模型并发布可重复的评估结果。在VLMEvalKit中,我们实现了70多个不同的大型多模态模型,包括专有API和开源模型,以及20多个不同的多模态基准。通过实现单一接口,新模型可以轻松地添加到工具包中,同时工具包自动处理其余的工作负载,包括数据准备、分布式推理、预测后处理和指标计算。虽然该工具包目前主要用于评估大型视觉语言模型,但其设计与未来更新兼容,可以包括其他模态,如音频和视频。基于使用该工具包获得的评估结果,我们托管了OpenVLM排行榜,一个全面的排行榜,用于跟踪多模态学习研究的进展。该工具包已发布在https://github.com/open-compass/VLMEvalKit,并得到积极维护。
- 图表
- 解决问题VLMEvalKit试图为研究人员和开发者提供一个用户友好且全面的框架,以评估现有的大型多模态模型并发布可重现的评估结果。同时,它还试图解决数据准备、分布式推理、预测后处理和指标计算等问题。
- 关键思路VLMEvalKit实现了超过70种不同的大型多模态模型和20多个多模态基准测试,并提供了一个统一的接口,以便将来可以轻松添加新的模型。该工具包还支持多种模态,例如图像、文本、音频和视频。
- 其它亮点该工具包可以用于评估大型视觉语言模型,并提供了一个完整的OpenVLM排行榜,以跟踪多模态学习研究的进展。它是开源的,可以在GitHub上找到。该工具包还提供了数据集和代码,以便其他研究人员可以重现实验结果,并探索新的研究方向。
- 最近在多模态学习领域中,还有一些相关的研究,例如:1)ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks;2)Unified Vision-Language Pre-Training for Image Captioning and VQA;3)VisualBERT: A Simple and Performant Baseline for Vision and Language。
沙发等你来抢
去评论
评论
沙发等你来抢