Extracting Human Attention through Crowdsourced Patch Labeling

2024年03月22日
  • 简介
    在图像分类中,数据集中存在的偏见是一个重要问题。当数据集仅包含特定类型的图像时,分类器开始依赖于捷径——简单和错误的决策规则。这导致在训练数据集上表现很好,但在新的、多样化的图像上表现较差,因为分类器的泛化能力降低。例如,如果被标记为胡子的图像仅包含男性人物,模型可能会无意中学习按性别分类图像,而不是按胡子的存在分类。缓解这种偏见的一种方法是将模型的注意力集中在目标对象的位置上,通常使用边界框或多边形进行标注。然而,收集此类注释需要大量时间和人力。因此,我们提出了一种新颖的补丁标记方法,将人工智能辅助与众包相结合,从图像中捕获人类注意力,这可以是缓解偏见的可行解决方案。我们的方法包括两个步骤。首先,我们使用经过预训练的显着性检测模型辅以人工验证以提取目标的大致位置。然后,我们通过将图像迭代地分成较小的补丁,并利用众包来确定每个补丁是否可以被分类为目标对象,来确定图像中人类关注的区域。我们通过改善分类准确性和模型的精细焦点来证明了我们的方法在缓解偏见方面的有效性。此外,众包实验验证了我们的方法比使用多边形注释对象位置收集人类注释的速度快3.4倍,大大减少了人力资源的需求。最后,我们讨论了我们的方法在众包环境中的优势,主要关注人为错误和可访问性方面的问题。
  • 图表
  • 解决问题
    本论文旨在解决图像分类中数据集偏差所带来的问题,提出一种结合人工智能和众包的新型补丁标注方法来缓解偏差。
  • 关键思路
    该方法利用预训练的显著性检测模型和人类验证来提取目标的大致位置,然后通过将图像分割成较小的补丁并利用众包来确定每个补丁是否可以被分类为目标对象,从而捕获人类的注意力。
  • 其它亮点
    论文通过实验证明了该方法可以有效地缓解偏差,并提高分类精度和模型的聚焦性。同时,该方法比使用多边形标注对象位置的方法快3.4倍,极大地减少了人力资源的需求。
  • 相关研究
    最近的相关研究包括使用不同的数据增强方法来缓解数据集偏差,以及使用元学习来提高模型的泛化能力。相关论文包括“Learning from Simulated and Unsupervised Images through Adversarial Training”和“Meta-Learning for Semi-Supervised Few-Shot Classification”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论