LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

简介

LLaVA-Plus是一个通用的多模态助手，扩展了大型多模态模型的功能。它维护了一个预训练视觉和视觉语言模型的技能库，并可以根据用户输入激活相关工具以完成现实任务。LLaVA-Plus通过多模态指令跟随数据进行训练，以获得使用工具的能力，包括视觉理解、生成、外部知识检索和组合。实证结果表明，LLaVA-Plus在现有功能上优于LLaVA，并展示了新的功能。它的独特之处在于图像查询直接被落地，并在整个人工智能交互会话中积极参与，显著提高了工具使用性能，并实现了新的场景。
图表
解决问题

LLaVA-Plus试图扩展大型多模态模型的能力，以满足现实世界任务的需求。它的目标是通过训练多模态指令遵循数据来获取使用工具的能力，包括视觉理解、生成、外部知识检索和组合。该论文试图解决如何提高工具使用性能并启用新场景的问题。
关键思路

LLaVA-Plus通过维护一个预训练的视觉和视觉语言模型的技能库，并根据用户输入激活相关工具来实现其目标。与现有研究相比，LLaVA-Plus的关键思路是直接基于图像查询进行定位，并在整个人工智能交互会话中积极参与，从而显着提高了工具使用性能并启用了新场景。
其它亮点

该论文的实验结果表明，LLaVA-Plus在现有能力方面优于LLaVA，并展示了新的能力。该论文的亮点包括使用多模态指令遵循数据训练模型，维护技能库以使用预训练的模型，直接基于图像查询进行定位，以及积极参与整个人工智能交互会话。该论文使用了多个数据集进行实验，并提供了开源代码。
相关研究

近期其他相关的研究包括：1.《VisualBERT: A Simple and Performant Baseline for Vision and Language》作者：Liunian Harold Li等；机构：Facebook AI Research。2.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》作者：Li Dong等；机构：Microsoft Research Asia。3.《Villa: A Multi-Modal Knowledge Base for Visual Reasoning》作者：Jiasen Lu等；机构：University of California, Berkeley。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论