尽管深度学习在计算机视觉领域取得了巨大成功,模型在泛化到新输入分布时仍然不如人类。现有的基准测试并未通过分析多种受控条件下的表现来探究模型的具体失败点。我们的研究通过设计一个实验系统性地剖析模型在轮廓整合(人类视觉的一个标志性特征)方面遇到困难的地点和原因,该实验测试了在不同物体碎片化程度下的物体识别能力。即使在物体轮廓较少的情况下,人类(n=50)仍能保持高准确率。相比之下,模型对增加的物体轮廓敏感度显著较低,在我们测试的1,000多个模型中,大多数的表现仅略高于随机猜测。只有当训练数据集规模非常大(约50亿)时,模型的表现才开始接近人类水平。重要的是,人类表现出一种整合偏向——更倾向于识别由方向性碎片组成的物体,而非无方向性的碎片。我们发现,不仅具有这种特性的模型在我们的任务中表现更好,而且这种偏向还随着模型训练数据集的规模增大而增强。此外,训练模型以实现轮廓整合会导致较高的形状偏向。综合来看,我们的结果表明,轮廓整合是物体视觉的一个标志性特征,支撑了物体识别的表现,并且可能是从大规模数据中学习到的一种机制。