Dual-Hybrid Attention Network for Specular Highlight Removal

2024年07月17日
  • 简介
    消除镜面反射是多媒体应用中的关键技术,因为它可以提高图像和视频的质量和可解释性,最终改善基于内容的检索、物体识别和场景理解等下游任务的性能。尽管深度学习方法取得了显著进展,但目前最先进的方法通常依赖于额外的先验知识或监督,限制了它们的实用性和泛化能力。在本文中,我们提出了一种双重混合注意力网络(DHAN-SHR)来消除镜面反射,它引入了新颖的混合注意力机制,可以有效地捕捉和处理不同尺度和域之间的信息,而不依赖于额外的先验知识或监督。DHAN-SHR由两个关键组件组成:自适应局部混合域双重注意力变换器(L-HD-DAT)和自适应全局双重注意力变换器(G-DAT)。L-HD-DAT捕捉局部通道和像素间的依赖关系,同时结合光谱域特征,使网络能够有效地建模镜面反射和底层表面特性之间的复杂交互作用。G-DAT模拟全局通道关系和长距离像素依赖关系,使网络能够在整个图像中传播上下文信息,并生成更连贯和一致的无高光结果。为了评估DHAN-SHR的性能并促进未来的研究,我们编制了一个大规模的基准数据集,其中包括各种不同程度的镜面反射的图像。通过广泛的实验,我们证明DHAN-SHR在定量和定性方面都优于18种最先进的方法,为多媒体应用中的镜面反射消除设定了一个新的标准。
  • 图表
  • 解决问题
    本论文旨在解决多媒体应用中镜面高光去除的问题,提出了一种新的端到端网络模型DHAN-SHR。该模型旨在不依赖于额外的先验或监督,通过引入新的混合注意机制有效地捕获和处理不同尺度和域中的信息。
  • 关键思路
    DHAN-SHR模型包括两个关键组件:自适应本地混合域双重注意转换器(L-HD-DAT)和自适应全局双重注意转换器(G-DAT)。L-HD-DAT捕获局部通道间和像素间的依赖关系,同时结合光谱域特征,使网络能够有效地模拟镜面高光和底层表面特征之间的复杂相互作用。G-DAT模型全局通道间关系和远距离像素间依赖关系,使网络能够在整个图像中传播上下文信息,生成更一致和连贯的去高光结果。
  • 其它亮点
    论文编译了一个大规模基准数据集,包括各种不同程度的镜面高光图像,通过广泛的实验,展示了DHAN-SHR模型在定量和定性上均优于18种最先进的方法,为多媒体应用中的镜面高光去除设定了新标准。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《A Deep Learning Approach for Highlight Removal in Endoscopic Images》、《Deep Joint Reflection Removal and Transmission Estimation》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论