Fusion of Short-term and Long-term Attention for Video Mirror Detection

简介

最近几年，静态图像中检测镜子的技术取得了快速的发展。然而，这些方法只能从单个输入图像中检测镜子。从视频中检测镜子需要进一步考虑帧间的时间一致性。我们观察到，人类可以通过外观（如形状、颜色）从一个或两个帧中识别出镜子候选物。然而，为了确保候选物确实是镜子（而不是图片或窗户），我们通常需要观察更多的帧以获得全局视图。这一观察启发我们通过融合短期注意力模块提取的外观特征和长期注意力模块提取的上下文信息来检测镜子。为了评估性能，我们构建了一个具有挑战性的基准数据集，包含281个视频的19,255帧。实验结果表明，我们的方法在基准数据集上达到了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视频中镜子检测问题，即如何从视频中检测出镜子并区分其它物体，这是一个相对新的问题。
关键思路

论文提出了一种融合短期和长期注意力模块的方法，通过提取镜子的外观特征和上下文信息来检测镜子。
其它亮点

论文构建了一个包含281个视频、19255帧的基准数据集，并在该数据集上取得了最先进的性能表现。论文还设计了一系列实验来验证方法的有效性，并提供了开源代码。
相关研究

近年来，镜子检测的相关研究逐渐增多，如《Mirror, Mirror on the Wall: A Comparative Study of Hand-Crafted and Learned Local Features for Mirror Detection》、《Mirror, Mirror, on the Wall, Who’s the Fairest of Them All?》等。

Fusion of Short-term and Long-term Attention for Video Mirror Detection

提问交流

提问交流