谷歌AI开源其注意力中心模型，使用机器学习识别人第一眼会看图像的哪个位置

谷歌最近开源了 Attention Center 模型，不仅适用于编码 JPEG XL 图像，还可以在判断人看到图片时第一眼会瞄准哪个位置。下图显示了一些预测示例（小绿点是预测的图像注意力中心点）。

模型的训练数据收集自眼动仪和鼠标点击，然后应用空间滤波来消除噪声，最后取剩余注意力点的中心作为本张图片的注意力中心点。下图是获取过程的示例插图图。

模型的训练过程如下图所示：预训练分类网络（Pretrained Classification Network）以图像为输入，使用预先训练好的分类网络（ResNet、MobileNet 等）作为骨干，并把几个中间层的输出用作“注意力中心预测（Attention Center Prediction）”模块的输入。这些不同的中间层包含不同的信息，浅层通常包含强度、颜色、纹理等基础信息，而较深的层通常包含更多的语义信息，如形状、对象等。注意力中心预测（Attention Center Prediction）模块使用卷积、反卷积/调整大小、聚合以及 sigmoid 函数来生成模型心的加权图。

原文链接：https://opensource.googleblog.com/2022/12/open-sourcing-attention-center-model.html

内容中包含的图片若涉及版权问题，请及时与我们联系删除

谷歌AI开源其注意力中心模型，使用机器学习识别人第一眼会看图像的哪个位置

评论列表

评论