MultiModal-GPT:与人类对话的愿景和语言模型
 

使用视觉和语言指令训练一个多模态聊天机器人!

基于开源多模态模型OpenFlamingo,我们使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,我们还使用仅包含语言指令数据的语言模型组件进行了训练。

视觉和语言指令的联合训练有效提高了模型的性能!

 

我们提出了一个名为MultiModal-GPT的愿景和语言模型,与人类进行多轮对话。MultiModal-GPT可以遵循人类的各种指令,例如生成详细的标题,计算感兴趣的对象数量,以及回答用户的一般问题。MultiModal-GPT从OpenFlamingo进行了参数高效微调,在语言模型的交叉注意力部分和自我注意力部分中都添加了低级适配器(LoRA)。

 

我们首先构建带有视觉和语言数据的指令模板,用于多模式指令调整,以使模型理解并遵循人类指令。我们发现训练数据的质量对对话表现至关重要,其中很少包含简短答案的数据可以导致模型快速响应任何指示。

为了进一步提高与MultiModal-GPT的人类聊天的能力,我们利用仅语言的指令跟踪数据来联合训练MultiModal-GPT。使用\emph{same}教学模板对纯语言和视觉语言教学的联合培训有效地提高了对话效果。各种演示展示了MultiModal-GPT与人类持续对话的能力。

作者:

Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen

论文地址https://github.com/open-mmlab/Multimodal-GPT/blob/main/README_zh-CN.md 

演示地址https://mmgpt.openmmlab.org.cn/ 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除