InternLM-XComposer-2.5: A Versatile Large Vision Language Model Supporting Long-Contextual Input and Output

2024年07月03日
  • 简介
    我们介绍了InternLM-XComposer-2.5(IXC-2.5),这是一个支持长上下文输入和输出的多功能大视野语言模型。IXC-2.5在各种文本图像理解和组合应用中表现出色,仅使用7B LLM后端就达到了GPT-4V级别的能力。它通过24K交替的图像文本上下文进行训练,可以通过RoPE外推顺畅地扩展到96K长上下文。这种长上下文能力使IXC-2.5在需要广泛输入和输出上下文的任务中表现出色。与其先前的2.0版本相比,InternLM-XComposer-2.5在视觉语言理解方面有三个主要升级:(1)超高分辨率理解,(2)细粒度视频理解和(3)多轮多图像对话。除了理解外,IXC-2.5还使用额外的LoRA参数扩展到两个引人注目的文本图像组合应用:(1)制作网页和(2)组合高质量的文本图像文章。IXC-2.5已经在28个基准测试上进行了评估,在16个基准测试上优于现有的开源最先进模型。它还在16个关键任务上超过或与GPT-4V和Gemini Pro竞争激烈。InternLM-XComposer-2.5可在https://github.com/InternLM/InternLM-XComposer上公开获取。
  • 图表
  • 解决问题
    本论文旨在提出一种新的大规模视觉语言模型,名为InternLM-XComposer-2.5(IXC-2.5),用于支持长上下文输入和输出,并在各种文本-图像理解和合成应用中表现出色。
  • 关键思路
    论文提出的InternLM-XComposer-2.5模型通过使用24K交错的图像-文本上下文进行训练,可以无缝扩展到96K长上下文,从而在需要广泛输入和输出上下文的任务中表现出色。相比之前的版本,IXC-2.5在视觉语言理解方面进行了三个重大升级,包括超高分辨率理解、精细视频理解和多轮多图像对话。
  • 其它亮点
    论文在28个基准测试中进行了评估,在16个基准测试上优于现有的开源最先进模型,并在16个关键任务上超过或与GPT-4V和Gemini Pro竞争激烈。此外,论文还介绍了两个使用额外LoRA参数进行文本-图像合成的应用:网页制作和合成高质量的文本-图像文章。InternLM-XComposer-2.5已公开发布在https://github.com/InternLM/InternLM-XComposer。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如DALL·E 2、CLIP和ViLBERT等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问