Contour Integration Underlies Human-Like Vision

2025年04月07日
  • 简介
    尽管深度学习在计算机视觉领域取得了巨大成功,模型在泛化到新输入分布时仍然不如人类。现有的基准测试并未通过分析多种受控条件下的表现来探究模型的具体失败点。我们的研究通过设计一个实验系统性地剖析模型在轮廓整合(人类视觉的一个标志性特征)方面遇到困难的地点和原因,该实验测试了在不同物体碎片化程度下的物体识别能力。即使在物体轮廓较少的情况下,人类(n=50)仍能保持高准确率。相比之下,模型对增加的物体轮廓敏感度显著较低,在我们测试的1,000多个模型中,大多数的表现仅略高于随机猜测。只有当训练数据集规模非常大(约50亿)时,模型的表现才开始接近人类水平。重要的是,人类表现出一种整合偏向——更倾向于识别由方向性碎片组成的物体,而非无方向性的碎片。我们发现,不仅具有这种特性的模型在我们的任务中表现更好,而且这种偏向还随着模型训练数据集的规模增大而增强。此外,训练模型以实现轮廓整合会导致较高的形状偏向。综合来看,我们的结果表明,轮廓整合是物体视觉的一个标志性特征,支撑了物体识别的表现,并且可能是从大规模数据中学习到的一种机制。
  • 图表
  • 解决问题
    该论文试图解决深度学习模型在物体识别任务中对轮廓整合能力不足的问题,并验证模型是否可以通过大规模数据学习到人类类似的轮廓整合机制。这是一个尚未完全解决的问题,尤其是在分析模型为何在新分布上泛化能力较差时。
  • 关键思路
    论文的关键思路是通过设计一个系统化的实验框架,测试模型和人类在不同水平的物体碎片化条件下的表现。研究表明,只有当训练数据规模达到非常大的程度(约50亿样本)时,模型才能接近人类的表现。此外,论文发现模型可以逐渐习得与人类相似的‘方向性碎片偏好’,并提出这种偏好可能是一种从大数据中学习到的机制。
  • 其它亮点
    1. 论文设计了一个新颖的实验来评估模型和人类在物体轮廓整合方面的差异;2. 使用了超过1000个模型进行测试,结果具有广泛的代表性;3. 提出了‘方向性碎片偏好’的概念,并证明其与模型性能提升相关;4. 实验表明,形状偏差可以通过训练获得更高的轮廓整合能力;5. 尽管未提及代码开源,但研究提供了未来探索的方向,例如如何更高效地训练出具备类似人类视觉特性的模型。
  • 相关研究
    相关的研究包括:1. 'Do ImageNet Classifiers Generalize to ImageNet?' 探讨了模型在分布外数据上的泛化能力;2. 'The Shape Bias of Human and Machine Vision' 研究了人类和机器视觉中的形状偏差;3. 'Benchmarking Neural Network Robustness to Common Corruptions and Perturbations' 分析了模型对常见扰动的鲁棒性;4. 'What Do CNNs Learn About Object Contours?' 研究了卷积神经网络如何学习物体轮廓特征。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论