谷歌最近开源了 Attention Center 模型,不仅适用于编码 JPEG XL 图像,还可以在判断人看到图片时第一眼会瞄准哪个位置。下图显示了一些预测示例(小绿点是预测的图像注意力中心点)。

图片

模型的训练数据收集自眼动仪和鼠标点击,然后应用空间滤波来消除噪声,最后取剩余注意力点的中心作为本张图片的注意力中心点。下图是获取过程的示例插图图。

图片

模型的训练过程如下图所示:预训练分类网络(Pretrained Classification Network)以图像为输入,使用预先训练好的分类网络(ResNet、MobileNet 等)作为骨干,并把几个中间层的输出用作“注意力中心预测(Attention Center Prediction)”模块的输入。这些不同的中间层包含不同的信息,浅层通常包含强度、颜色、纹理等基础信息,而较深的层通常包含更多的语义信息,如形状、对象等。注意力中心预测(Attention Center Prediction)模块使用卷积、反卷积/调整大小、聚合以及 sigmoid 函数来生成模型心的加权图。

图片

原文链接:https://opensource.googleblog.com/2022/12/open-sourcing-attention-center-model.html

内容中包含的图片若涉及版权问题,请及时与我们联系删除