LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Shilong Liu,
Hao Cheng,
Haotian Liu,
Hao Zhang,
Feng Li,
Tianhe Ren,
Xueyan Zou,
Jianwei Yang,
Hang Su,
Jun Zhu,
Lei Zhang,
Jianfeng Gao,
Chunyuan Li
CV
AI
NLP
ML
MM
2023年11月09日
  • 简介
    LLaVA-Plus是一个通用的多模态助手,扩展了大型多模态模型的功能。它维护了一个预训练视觉和视觉语言模型的技能库,并可以根据用户输入激活相关工具以完成现实任务。LLaVA-Plus通过多模态指令跟随数据进行训练,以获得使用工具的能力,包括视觉理解、生成、外部知识检索和组合。实证结果表明,LLaVA-Plus在现有功能上优于LLaVA,并展示了新的功能。它的独特之处在于图像查询直接被落地,并在整个人工智能交互会话中积极参与,显著提高了工具使用性能,并实现了新的场景。
  • 图表
  • 解决问题
    LLaVA-Plus试图扩展大型多模态模型的能力,以满足现实世界任务的需求。它的目标是通过训练多模态指令遵循数据来获取使用工具的能力,包括视觉理解、生成、外部知识检索和组合。该论文试图解决如何提高工具使用性能并启用新场景的问题。
  • 关键思路
    LLaVA-Plus通过维护一个预训练的视觉和视觉语言模型的技能库,并根据用户输入激活相关工具来实现其目标。与现有研究相比,LLaVA-Plus的关键思路是直接基于图像查询进行定位,并在整个人工智能交互会话中积极参与,从而显着提高了工具使用性能并启用了新场景。
  • 其它亮点
    该论文的实验结果表明,LLaVA-Plus在现有能力方面优于LLaVA,并展示了新的能力。该论文的亮点包括使用多模态指令遵循数据训练模型,维护技能库以使用预训练的模型,直接基于图像查询进行定位,以及积极参与整个人工智能交互会话。该论文使用了多个数据集进行实验,并提供了开源代码。
  • 相关研究
    近期其他相关的研究包括:1.《VisualBERT: A Simple and Performant Baseline for Vision and Language》作者:Liunian Harold Li等;机构:Facebook AI Research。2.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》作者:Li Dong等;机构:Microsoft Research Asia。3.《Villa: A Multi-Modal Knowledge Base for Visual Reasoning》作者:Jiasen Lu等;机构:University of California, Berkeley。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论