基础视觉编码器已成为广泛密集视觉任务的核心组件。然而,它们输出的空间特征分辨率较低,需要进行特征上采样,以生成下游任务所需的高分辨率模态。在本文中,我们提出了 JAFAR,这是一种轻量且灵活的特征上采样方法,能够将任何基础视觉编码器的视觉特征增强到任意目标分辨率。JAFAR 使用了一种基于注意力的模块,该模块通过空间特征变换(SFT)调制,促进从低级图像特征派生的高分辨率查询与语义丰富的低分辨率键之间的语义对齐。值得注意的是,尽管缺乏高分辨率监督,我们证明了在低上采样率和低分辨率下学习的模型能够很好地推广到显著更高的输出尺度。大量实验表明,JAFAR 能够有效恢复细粒度的空间细节,并在多种下游任务中始终优于现有的特征上采样方法。项目页面:https://jafar-upsampler.github.io