XPSR: Cross-modal Priors for Diffusion-based Image Super-Resolution

2024年03月08日
  • 简介
    最近,基于扩散的方法在图像超分辨率(ISR)中备受关注,因为它们具有强大的生成先验。然而,由于低分辨率(LR)图像经常遭受严重破坏,ISR模型难以感知语义和退化信息,导致恢复图像内容不正确或存在不真实的伪影。为了解决这些问题,我们提出了一个名为“跨模态超分辨率先验(XPSR)”的框架。在XPSR中,为了获取扩散模型的精确和全面的语义条件,采用了先进的多模态大型语言模型(MLLMs)。为了更好地融合跨模态先验,提出了“语义融合注意力”。为了提取保留语义信息而不是不需要的退化,将“无退化约束”附加在LR和其高分辨率(HR)对应物之间。定量和定性结果表明,XPSR能够在合成和真实世界数据集中生成高保真和高逼真的图像。代码将在\url{https://github.com/qyp2000/XPSR}上发布。
  • 图表
  • 解决问题
    本文旨在解决图像超分辨率中低分辨率图像经历严重退化时,难以获取语义和退化信息的问题,从而导致恢复图像存在错误内容或不真实的伪影。同时,该论文也试图验证利用跨模态先验的方法来提高ISR模型的性能是否可行。
  • 关键思路
    本文提出了一种名为“Cross-modal Priors for Super-Resolution (XPSR)”的框架,利用先进的多模态大语言模型(MLLMs)来获取精确和全面的语义条件,并提出“Semantic-Fusion Attention”和“Degradation-Free Constraint”两种方法,以便更好地融合跨模态先验和提取保留语义信息。通过实验结果表明,该方法能够在合成和真实世界数据集上生成高保真和高逼真的图像。
  • 其它亮点
    本文亮点包括:1. 提出了一种新的跨模态先验框架,能够提高ISR模型的性能;2. 引入“Semantic-Fusion Attention”和“Degradation-Free Constraint”两种方法,能够更好地融合跨模态先验和提取保留语义信息;3. 实验结果表明,该方法能够在合成和真实世界数据集上生成高保真和高逼真的图像;4. 代码已经开源。
  • 相关研究
    近期在这个领域中的相关研究包括:1. “Deep Residual Learning for Image Super-Resolution”;2. “Enhanced Deep Residual Networks for Single Image Super-Resolution”;3. “Image Super-Resolution via Iterative Refinement”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论