Scaling Rectified Flow Transformers for High-Resolution Image Synthesis

2024年03月05日
  • 简介
    扩散模型通过将数据向噪声的正向路径反转来创建数据,已经成为高维感知数据(如图像和视频)的强大生成建模技术。矫正流是一种最近的生成模型公式,它将数据和噪声连接在一条直线上。尽管其具有更好的理论特性和概念上的简单性,但它还没有被决定性地确立为标准实践。在这项工作中,我们通过将现有的噪声采样技术偏向于感知相关的尺度来改进训练矫正流模型的方法。通过大规模研究,我们证明了这种方法相对于已建立的扩散公式在高分辨率文本到图像合成方面具有更优越的性能。此外,我们提出了一种基于变压器的文本到图像生成架构,它使用两种模态的单独权重,并实现了图像和文本令牌之间信息的双向流动,提高了文本理解、排版和人类偏好评级。我们证明了这种架构遵循可预测的扩展趋势,并将较低的验证损失与各种指标和人类评估所衡量的改进的文本到图像合成相关联。我们最大的模型优于最先进的模型,并将我们的实验数据、代码和模型权重公开发布。
  • 图表
  • 解决问题
    本文旨在改进噪声采样技术,以提高基于修正流模型的高分辨率文本到图像合成的性能。
  • 关键思路
    本文提出了一种新的噪声采样技术,通过对感知相关尺度进行偏置来改进训练修正流模型,实现了文本到图像的高效合成。
  • 其它亮点
    本文使用大规模实验验证了新的噪声采样技术相对于传统扩散模型的优越性,并提出了一种基于Transformer的文本到图像生成架构,能够实现双向信息流动,提高了文本理解、排版和人类偏好评分。
  • 相关研究
    最近在这个领域的相关研究包括:《Generative Models for Effective ML》、《Flow-based Deep Generative Models》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论