Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention

2024年05月19日
  • 简介
    本文介绍了一种新颖的多视角扩散方法Era3D,可从单视角图像生成高分辨率的多视角图像。尽管多视角生成技术有了显著的进展,但现有方法仍然存在摄像机先验不匹配、低效和低分辨率等问题,导致多视角图像质量较差。具体而言,这些方法假设输入图像应符合预定义的摄像机类型,例如具有固定焦距的透视摄像机,当这种假设失效时,会导致形状失真。此外,它们采用的全图或密集多视角注意力会导致计算复杂度呈指数级增长,随着图像分辨率的增加,训练成本变得极高。为了弥合假设和现实之间的差距,Era3D首先提出了一种基于扩散的摄像机预测模块,用于估计输入图像的焦距和高度,从而使我们的方法能够生成没有形状失真的图像。此外,我们使用一种简单而高效的注意力层,称为行注意力,以在多视角扩散中强制实现极线先验,从而促进有效的跨视图信息融合。因此,与最先进的方法相比,Era3D生成高质量的多视角图像,分辨率高达512×512,同时将计算复杂度降低了12倍。全面的实验表明,Era3D可以从不同的单视角输入图像中重建高质量和详细的3D网格,明显优于基线多视角扩散方法。
  • 图表
  • 解决问题
    Era3D试图解决现有多视图生成方法中存在的相机类型假设不匹配、低效和低分辨率等问题,提出了一种从单视图图像生成高分辨率多视图图像的方法。
  • 关键思路
    Era3D提出了基于扩散的相机预测模块来估计输入图像的焦距和仰角,使得方法可以在不产生形状失真的情况下生成图像。同时,使用一种名为行注意力的简单而高效的注意力层来促进多视图扩散中的对极线先验,从而实现高质量的多视图图像生成。
  • 其它亮点
    论文使用了多个数据集进行了全面的实验,证明Era3D可以从不同的单视图输入图像重建高质量和详细的3D网格,并且在减少计算复杂度的同时,生成了高达512*512分辨率的高质量多视图图像。
  • 相关研究
    最近的相关研究包括Multi-View Stereo、Deep Multi-Plane Stereo等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论