- 简介多模态大型语言模型(MLLMs)展现出在生成关于多模态内容的合理回应方面的惊人能力。然而,即使最强大的OpenAI的GPT-4和Google的Gemini已经被部署,最近基于MLLM的应用程序的性能仍然与广大公众的期望存在巨大差距。本文试图通过对最近专有和开源MLLM在文本、代码、图像和视频等四种模态上的普适性、可信度和因果推理能力进行定性研究来增强对这一差距的理解,最终旨在提高MLLM的透明度。我们认为这些特性是定义MLLM的可靠性的几个代表性因素,以支持各种下游应用。具体而言,我们评估了闭源的GPT-4和Gemini以及6个开源的LLM和MLLM。总体上,我们评估了230个手动设计的案例,其中定性结果被总结为12个分数(即4个模态乘以3个特性)。总体而言,我们揭示了14个经验性发现,这些发现有助于了解专有和开源MLLM的能力和局限性,以实现更可靠的下游多模态应用。
- 图表
- 解决问题本论文旨在通过对现有开源和专有多模态大语言模型的质量评估,从多模态性、可靠性和因果推理能力三个方面,探究当前多模态大语言模型的性能与公众期望之间的差距。
- 关键思路本论文通过定量评估和定性分析,发现多模态大语言模型在多模态性、可靠性和因果推理能力等方面仍存在一定局限性,提出了一些改进建议,以期提高多模态大语言模型的可靠性和适用性。
- 其它亮点本论文通过定量评估和定性分析,评估了6个开源和2个专有多模态大语言模型在4个模态(文本、代码、图像和视频)上的性能,总共评估了230个手动设计的用例。研究结果发现,多模态大语言模型在多模态性、可靠性和因果推理能力等方面存在局限性,需要进一步改进和优化。本论文提出了一些改进建议,以期提高多模态大语言模型的可靠性和适用性。
- 在此领域的相关研究中,最近的一些工作包括:《DALL·E: Creating Images from Text》、《CLIP: Connecting Text and Images》、《ImageBERT: Cross-modal Pre-training with Large-scale Weak-supervised Image-Text Data》等。
沙发等你来抢
去评论
评论
沙发等你来抢