CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

2023年11月30日
  • 简介
    我们提出了CoDi-2,这是一个多功能、交互式的多模态大语言模型(MLLM),可以在任意输入-输出模态范式下遵循复杂的多模态交错指令、进行上下文学习(ICL)、推理、聊天、编辑等。通过将语言的编码和生成与多种模态对齐,CoDi-2使大型语言模型(LLMs)不仅能够理解复杂的模态交错指令和上下文示例,而且能够在连续特征空间中自回归生成基于实地和连贯的多模态输出。为了训练CoDi-2,我们构建了一个大规模的生成数据集,涵盖了跨文本、视觉和音频的上下文多模态指令。CoDi-2展示了广泛的零-shot能力,如上下文学习、推理和任意-任意模态生成的组合性,通过多轮交互式对话。CoDi-2在主题驱动的图像生成、视觉转换和音频编辑等任务上超越了以前的领域特定模型。CoDi-2标志着在开发全面的多模态基础模型方面取得了重大突破,能够解释上下文语言-视觉-音频交错指令并产生多模态输出。
  • 图表
  • 解决问题
    CoDi-2试图解决的问题是如何让大型语言模型理解和生成复杂的多模态指令,以及在任意输入输出模态范式下进行推理、聊天、编辑等任务。这是一个新问题。
  • 关键思路
    CoDi-2的关键思路是将多模态输入与语言编码和生成对齐,使得模型能够理解复杂的多模态指令,并在连续特征空间中自回归生成有基础的、连贯的多模态输出。
  • 其它亮点
    CoDi-2使用大规模生成数据集进行训练,并展示了许多零样本多模态生成的能力,例如在上下文中学习、推理和任意输入输出模态生成的组合性。CoDi-2在主观驱动的图像生成、视觉转换和音频编辑等任务上超过了以前的领域特定模型。
  • 相关研究
    最近在这个领域中,还有一些相关的研究。例如:《DALL-E: Creating Images from Text》、《Image Transformer》和《Generative Pretraining Transformer 3》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论