论文标题:TFill: Image Completion via a Transformer-Based Architecture 论文链接:https://arxiv.org/abs/2104.00845 代码链接:https://github.com/lyndonzheng/TFill 作者单位:南洋理工大学 & 蒙纳士大学
表现SOTA!性能优于HiFill、PICNet等网络,代码即将开源!
桥接远处的上下文交互对于使用大型mask的高质量图像补全非常重要。以前尝试通过深或大的感受野(RF)卷积进行此操作的方法无法摆脱附近交互作用的支配地位,而这可能是劣势的。在本文中,我们提出将图像补全处理视为无方向的序列到序列预测任务,并在第一阶段部署Transfoemer直接捕获编码器中的远程依赖性。至关重要的是,我们采用具有较小且不重叠的RF的限制性CNN来表示token,这使Transformer可以在所有层中显式建模具有相同重要性的远程上下文关系,而在使用较大的RF时不会隐式混淆相邻token。在第二阶段中,为了提高可见区域与生成区域之间的外观一致性,引入了一种新型的注意力感知层(AAL),以更好地利用远距离相关的功能并避免标准注意的孤立效果。总体而言,广泛的实验表明,与多个数据集上的最新方法相比,该方法具有优越的性能。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢