ResMaster: Mastering High-Resolution Image Generation via Structural and Fine-Grained Guidance

2024年06月24日
  • 简介
    扩散模型在生成高质量图像方面表现出色,但是将分辨率扩大到更高的分辨率,如4K,通常会导致过度平滑的内容、结构扭曲和重复的模式。为此,我们介绍了ResMaster,这是一种新颖的、无需训练的方法,能够使受分辨率限制的扩散模型生成高质量图像,超越分辨率限制。具体而言,ResMaster利用预训练的扩散模型创建的低分辨率参考图像,在逐个图块的基础上为制作高分辨率图像提供结构和细粒度指导。为了确保连贯的全局结构,ResMaster在每个去噪步骤中将高分辨率图块的低频成分与低分辨率参考对齐。为了提供细粒度指导,ResMaster采用基于低分辨率参考的定制图像提示和由视觉语言模型生成的丰富文本提示。这种方法可以显著减轻局部模式扭曲并改善细节精细化。大量实验证实,ResMaster为高分辨率图像生成设立了新的基准,并展示了良好的效率。项目页面为https://shuweis.github.io/ResMaster。
  • 图表
  • 解决问题
    ResMaster旨在解决分辨率受限扩散模型在生成高分辨率图像时出现的问题,如过度平滑、结构失真和重复模式。
  • 关键思路
    ResMaster使用预训练的低分辨率扩散模型创建低分辨率参考图像,在每个去噪步骤中将高分辨率补丁的低频成分与低分辨率参考对齐,以提供结构和细粒度指导,同时利用基于视觉-语言模型的图像提示来改善细节精细度。
  • 其它亮点
    ResMaster是一个无需训练的方法,可使分辨率受限扩散模型生成高质量图像,实验结果表明其在高分辨率图像生成方面取得了新的成果,并且具有良好的效率。项目页面提供了代码和数据集。
  • 相关研究
    最近的相关研究包括StyleGAN2和BigGAN-deep,它们都是生成高分辨率图像的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论