AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn

Difei Gao, Lei Ji, Luowei Zhou, Kevin Qinghong Lin, Joya Chen, Zihan Fan, Mike Zheng Shou
[National University of Singapore & Microsoft Research Asia]

AssistGPT:可规划、执行、检查和学习的通用多模态助理

要点:

  • 动机:解决复杂的视觉任务在多模态场景下的挑战,包括难以准确分解查询、灵活的输入和中间结果。

  • 方法:提出一个多模态AI助手系统AssistGPT,采用Plan、Execute、Inspect和Learn(PEIL)的交叉代码和语言推理方法,结合LLM和各种工具。

  • 优势:AssistGPT能够处理复杂的视觉相关任务,具有灵活的推理方式和多模态能力,在A-OKVQA和NExT-QA基准测试中取得了最先进的结果。


介绍了一个名为AssistGPT的多模态AI助手系统,通过交叉代码和语言推理方法解决了复杂视觉任务的挑战,并在基准测试和实际应用中展示了其有效性。

https://arxiv.org/abs/2306.08640 


图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除