Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

2024年08月20日
  • 简介
    我们介绍了Transfusion,这是一种训练离散和连续数据的多模型的方法。Transfusion将语言建模损失函数(下一个标记预测)与扩散相结合,以训练一个单一的转换器来处理混合模态序列。我们从零开始预训练多个Transfusion模型,总参数量高达7B,使用文本和图像数据的混合物,建立了与各种单模态和跨模态基准的缩放定律。我们的实验表明,Transfusion比量化图像和训练离散图像标记上的语言模型的效果更好。通过引入模态特定的编码和解码层,我们可以进一步提高Transfusion模型的性能,甚至将每个图像压缩为仅16个补丁。我们进一步证明,将我们的Transfusion方法扩展到7B参数和2T多模态标记,可以生成与类似规模的扩散模型和语言模型相当的图像和文本,充分利用两个世界的优势。
  • 图表
  • 解决问题
    Transfusion论文试图解决的问题是如何训练一个能够处理离散和连续数据的多模态模型。这个问题是一个新问题。
  • 关键思路
    Transfusion的关键思路是将语言建模损失函数(下一个标记预测)与扩散相结合,训练一个单一的Transformer模型来处理混合模态序列。通过引入模态特定的编码和解码层,可以进一步提高Transfusion模型的性能。通过将Transfusion模型扩展到7B参数和2T多模态标记,可以生成与类似规模的扩散模型和语言模型相当的图像和文本。
  • 其它亮点
    论文使用了混合的文本和图像数据对多个Transfusion模型进行了预训练,建立了与各种单模态和跨模态基准的比较。实验结果表明,Transfusion比将图像量化并在离散图像标记上训练语言模型更具优势。此外,通过将每个图像压缩为仅16个补丁,可以进一步提高Transfusion模型的性能。Transfusion的代码已经开源。
  • 相关研究
    与Transfusion相关的研究包括:《扩散模型》、《语言模型》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论