- 简介我们提出了Unified-IO 2,这是第一个自回归多模态模型,能够理解和生成图像、文本、音频和动作。为了统一不同的模态,我们将输入和输出(图像、文本、音频、动作、边界框等)进行分词,并将它们置于共享的语义空间中,然后使用单个编码器-解码器转换器模型进行处理。由于使用这种多样化的模态进行训练是具有挑战性的,因此我们提出了各种架构改进来稳定模型训练。我们从头开始训练我们的模型,使用来自各种来源的大型多模态预训练语料库,并采用多模态混合去噪目标。为了学习广泛的技能,例如遵循多模态指令,我们构建并微调了一个包含120个数据集、提示和增强的集成模型。使用单个统一模型,Unified-IO 2在GRIT基准测试中实现了最先进的性能,并在超过35个基准测试中获得了强大的结果,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作。我们向研究社区发布了我们的所有模型。
- 图表
- 解决问题本论文旨在解决多模态人工智能模型的统一性问题,提出了一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。
- 关键思路通过将输入和输出(如图像、文本、音频、动作、边界框等)标记化为共享语义空间中的标记,然后使用单个编码器-解码器变换器模型来处理这些标记,从而统一不同的模态。此外,论文还提出了各种架构改进来稳定模型训练。
- 其它亮点论文使用多模态混合去噪目标在大型多模态预训练语料库上从头训练模型,并构建和微调了一个包含120个带提示和增强的数据集的模型集合,以学习广泛的技能,例如遵循多模态指令。Unified-IO 2模型在GRIT基准测试中取得了最新的性能,并在35多个基准测试中取得了强大的结果,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作。
- 最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《DALL-E: Creating Images from Text》、《Learning Transferable Visual Models From Natural Language Supervision》等。


提问交流