Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

简介

我们提出了一个统一的Transformer模型，名为Show-o，它统一了多模态的理解和生成。与完全自回归模型不同，Show-o将自回归和（离散）扩散建模统一起来，以自适应地处理各种混合模态的输入和输出。该统一模型灵活支持广泛的视觉语言任务，包括视觉问答、文本到图像生成、文本引导修补/推断和混合模态生成。在各种基准测试中，它展示了与现有的专门针对理解或生成的等效或更大数量参数的个别模型相当或优越的性能。这极大地凸显了它作为下一代基础模型的潜力。代码和模型发布在https://github.com/showlab/Show-o。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决多模态理解和生成的问题，并提出了一种统一的Transformer模型Show-o。
关键思路

Show-o模型将自回归模型与扩散模型相结合，以适应各种和混合模态的输入和输出。
其它亮点

Show-o模型能够灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中，它展现了与现有个别模型相当或更优的性能，具有作为下一代基础模型的潜力。研究开源代码和模型已经发布在https://github.com/showlab/Show-o。
相关研究

最近在多模态理解和生成领域中，还有一些相关的研究，包括《Multimodal Transformers: A Simple yet Effective Approach》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。

Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

提问交流

提问交流