LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

Shilong Liu ,
Hao Cheng ,
Haotian Liu ,
Hao Zhang ,
Feng Li ,
Tianhe Ren ,
Xueyan Zou ,
Jianwei Yang ,
Hang Su ,
Jun Zhu ,
Lei Zhang ,
Jianfeng Gao ,
Chunyuan Li
220
热度
2023年11月09日
  • 简介
    LLaVA-Plus是一个通用的多模态助手,扩展了大型多模态模型的功能。它维护了一个预训练视觉和视觉语言模型的技能库,并可以根据用户输入激活相关工具以完成现实任务。LLaVA-Plus通过多模态指令跟随数据进行训练,以获得使用工具的能力,包括视觉理解、生成、外部知识检索和组合。实证结果表明,LLaVA-Plus在现有功能上优于LLaVA,并展示了新的功能。它的独特之处在于图像查询直接被落地,并在整个人工智能交互会话中积极参与,显著提高了工具使用性能,并实现了新的场景。
  • 图表
  • 解决问题
    LLaVA-Plus试图扩展大型多模态模型的能力,以满足现实世界任务的需求。它的目标是通过训练多模态指令遵循数据来获取使用工具的能力,包括视觉理解、生成、外部知识检索和组合。该论文试图解决如何提高工具使用性能并启用新场景的问题。
  • 关键思路
    LLaVA-Plus通过维护一个预训练的视觉和视觉语言模型的技能库,并根据用户输入激活相关工具来实现其目标。与现有研究相比,LLaVA-Plus的关键思路是直接基于图像查询进行定位,并在整个人工智能交互会话中积极参与,从而显着提高了工具使用性能并启用了新场景。
  • 其它亮点
    该论文的实验结果表明,LLaVA-Plus在现有能力方面优于LLaVA,并展示了新的能力。该论文的亮点包括使用多模态指令遵循数据训练模型,维护技能库以使用预训练的模型,直接基于图像查询进行定位,以及积极参与整个人工智能交互会话。该论文使用了多个数据集进行实验,并提供了开源代码。
  • 相关研究
    近期其他相关的研究包括:1.《VisualBERT: A Simple and Performant Baseline for Vision and Language》作者:Liunian Harold Li等;机构:Facebook AI Research。2.《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》作者:Li Dong等;机构:Microsoft Research Asia。3.《Villa: A Multi-Modal Knowledge Base for Visual Reasoning》作者:Jiasen Lu等;机构:University of California, Berkeley。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论