论文标题:Hard-Attention for Scalable Image Classification 论文链接:https://arxiv.org/abs/2102.10212 作者单位:纽约大学 & AGH科技大学 本文提出了一种新颖的多尺度hard注意力架构:TNet,以自上而下的方式遍历图像金字塔,访问信息最丰富的区域,在数据集上的资源和准确性之间实现更好的折衷!

深度神经网络(DNN)通常针对特定的输入分辨率(例如224×224 px)进行了优化,并且将其用于更高分辨率的输入(例如卫星或医学图像)仍然具有挑战性,因为这会导致过多的计算和内存开销,并可能需要大量的工程工作(例如streaming)。我们表明,多尺度的努力可以有效解决这一问题。我们提出了一种新颖的架构TNet,该架构以自上而下的方式遍历图像金字塔,仅访问信息最丰富的区域。我们将模型与强大的注意力集中基准进行了比较,从而在ImageNet上的资源和准确性之间实现了更好的折衷。我们进一步验证了我们的模型在卫星图像(fMoW数据集)上的有效性,该图像最大尺寸为896×896 px。此外,我们的注意力集中机制可确保预测具有一定程度的可解释性,而不会产生超出推断的额外费用。我们还表明,由于我们的模型仅涉及最高分辨率内容的一小部分,而仅使用图像级别的标签而没有边界框,因此我们可以减少数据获取和注释的成本。

内容中包含的图片若涉及版权问题,请及时与我们联系删除