- 简介学习鲁棒且表达丰富的视觉表示的一个基本问题在于有效地估计整个图像中视觉语义的空间关系。在本研究中,我们提出了vHeat,一种新颖的视觉骨干模型,同时实现了高计算效率和全局感受野。这个灵感来自于热传导的物理原理,将图像补丁概念化为热源,并将它们之间的相关性计算建模为热能的扩散。这个机制通过新提出的模块——热传导算子(HCO)被纳入到深度模型中,该模块具有物理可行性,并可以使用DCT和IDCT操作进行高效实现,其复杂度为$\mathcal{O}(N^{1.5})$。广泛的实验表明,vHeat在各种视觉任务中均优于Vision Transformers(ViTs),同时为高分辨率图像提供更高的推理速度、减少的FLOPs和更低的GPU内存使用。代码将在https://github.com/MzeroMiko/vHeat上发布。
- 图表
- 解决问题论文提出了vHeat模型,旨在解决学习鲁棒且表现力强的视觉表示时,估计整个图像中视觉语义空间关系的效率问题。
- 关键思路vHeat模型通过热传导算子(HCO)将图像补丁视为热源,并将它们的相关性计算建模为热能的扩散,从而实现高计算效率和全局感受野。
- 其它亮点vHeat模型在各种视觉任务上均优于Vision Transformers(ViTs),同时为高分辨率图像提供更高的推理速度、更少的FLOPs和更低的GPU内存使用。研究使用了多个数据集进行实验,并在GitHub上开源了代码。
- 最近的相关研究包括Vision Transformers(ViTs)、Convolutional Neural Networks(CNNs)和Self-Attention Mechanisms等。
沙发等你来抢
去评论
评论
沙发等你来抢