- 简介Transformers已经在解决视频快照压缩成像(SCI)的反问题上取得了最先进的表现,其不适定性根源于空间掩蔽和时间混叠的混合退化。然而,以前的Transformers缺乏对退化的洞察,因此性能和效率有限。在这项工作中,我们量身定制了一种高效的重建架构,早期层中没有时间聚合,使用分层可分视频Transformer(HiSViT)作为构建块。HiSViT由多个跨尺度可分多头自注意力(CSS-MSA)和门控自调节前馈网络(GSM-FFN)组成,具有密集连接,每个组在不同尺度的单独通道部分内进行,以进行多尺度交互和长程建模。通过将空间操作与时间操作分开,CSS-MSA引入了一种归纳偏差,即在帧内而不是帧间更多地关注,同时节省计算开销。GSM-FFN通过门控机制和分解的时空卷积进一步增强了局部性。广泛的实验表明,我们的方法在可比或更少的参数和复杂性下,优于以前的方法$>\!0.5$ dB。源代码和预训练模型发布在https://github.com/pwangcs/HiSViT。
- 图表
- 解决问题解决问题:论文旨在解决快照压缩成像(SCI)的逆问题,即混合退化的空间遮罩和时间混叠问题。此前的Transformer模型缺乏对退化的洞察力,因此性能和效率有限。
- 关键思路关键思路:文章提出了一种高效的重建架构,其中早期层没有时间聚合,并使用分层可分离视频Transformer(HiSViT)作为构建块。HiSViT由多个CSS-MSA和GSM-FFN组成,每个组在不同的尺度上在单独的通道部分内进行,以进行多尺度交互和长距离建模。CSS-MSA通过将空间操作与时间操作分开,引入了一种归纳偏差,即在帧内而不是帧间更关注,同时节省了计算开销。GSM-FFN通过门控机制和分解的时空卷积进一步增强了局部性。
- 其它亮点其他亮点:文章在多个数据集上进行了广泛的实验,证明了该方法的有效性和优越性。同时,文章开源了代码和预训练模型。值得进一步研究的是,最近在这个领域中还有其他相关研究,如“Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation”和“Deep Video Super-Resolution Network Using Spatial and Temporal Transformers”。
- 相关研究:最近在这个领域中还有其他相关研究,如“Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Compensation”和“Deep Video Super-Resolution Network Using Spatial and Temporal Transformers”。
沙发等你来抢
去评论
评论
沙发等你来抢