纽约大学 | TNet：用于图像分类的多尺度hard注意力

论文标题：Hard-Attention for Scalable Image Classification 论文链接：https://arxiv.org/abs/2102.10212 作者单位：纽约大学 & AGH科技大学本文提出了一种新颖的多尺度hard注意力架构：TNet，以自上而下的方式遍历图像金字塔，访问信息最丰富的区域，在数据集上的资源和准确性之间实现更好的折衷！

深度神经网络（DNN）通常针对特定的输入分辨率（例如224×224 px）进行了优化，并且将其用于更高分辨率的输入（例如卫星或医学图像）仍然具有挑战性，因为这会导致过多的计算和内存开销，并可能需要大量的工程工作（例如streaming）。我们表明，多尺度的努力可以有效解决这一问题。我们提出了一种新颖的架构TNet，该架构以自上而下的方式遍历图像金字塔，仅访问信息最丰富的区域。我们将模型与强大的注意力集中基准进行了比较，从而在ImageNet上的资源和准确性之间实现了更好的折衷。我们进一步验证了我们的模型在卫星图像（fMoW数据集）上的有效性，该图像最大尺寸为896×896 px。此外，我们的注意力集中机制可确保预测具有一定程度的可解释性，而不会产生超出推断的额外费用。我们还表明，由于我们的模型仅涉及最高分辨率内容的一小部分，而仅使用图像级别的标签而没有边界框，因此我们可以减少数据获取和注释的成本。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

纽约大学 | TNet：用于图像分类的多尺度hard注意力

评论列表

评论