Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

简介

我们提出了一种统一的Transformer模型，即Show-o，它统一了多模态的理解和生成。与完全自回归模型不同，Show-o将自回归和（离散）扩散建模统一起来，以自适应地处理各种混合模态的输入和输出。该统一模型灵活地支持广泛的视觉语言任务，包括视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。在各种基准测试中，它展现出与现有的为理解或生成量身定制的等效或更多参数的个别模型相当或更优秀的性能。这显著地突显了它作为下一代基础模型的潜力。代码和模型已在https://github.com/showlab/Show-o发布。
图表
解决问题

Show-o试图解决视觉语言任务中多模态理解和生成的问题，提出了一种统一的Transformer模型。
关键思路

Show-o将自回归模型和扩散模型相结合，能够自适应地处理不同的多模态输入和输出。
其它亮点

Show-o能够支持多种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中，Show-o的性能与当前的单独模型相当或优于它们，这表明它有潜力成为下一代基础模型。作者已经在Github上开源了代码和模型。
相关研究

最近的相关研究包括VilBERT、LXMERT和UNITER等。