Adopting a human developmental visual diet yields robust, shape-based AI vision

2025年07月03日
  • 简介
    尽管经过多年的研究,并且人工智能(AI)系统在规模上取得了显著扩展,人工视觉与人类视觉之间仍存在明显的不匹配。与人类不同,人工智能严重依赖纹理特征而非形状信息,对图像失真缺乏鲁棒性,极易受到对抗攻击的影响,并且难以在复杂背景中识别简单的抽象形状。为缩小这一差距,我们提出了一种来自此前未被充分探索的方向的解决方案:与其一味扩大模型规模,我们转而从人类视觉从婴儿期到成年期的发展过程中获得启发。我们通过将数十年的心理物理学和神经生理学研究成果综合起来,为人工智能视觉设计了一种新颖的“发育视觉食谱”(developmental visual diet, DVD),用以量化视觉成熟过程。我们发现,通过这种受人类启发的学习路径来引导人工智能系统,可以产生出在每一项测试的稳健视觉特征上都与人类行为高度一致的模型——这是迄今为止对形状信息依赖最强的表现,抽象形状识别能力超越了当前最先进的水平,对图像损坏具有更高的鲁棒性,对对抗攻击也展现出更强的抵抗力。这些表现甚至超过了那些使用数量级更大数据训练出来的高参数人工智能基础模型。我们的研究证明,实现稳健的人工智能视觉不仅在于模型学习了多少数据,更在于如何引导模型学习的方式。这为构建更安全、更接近人类视觉特性的人工视觉系统提供了一条资源效率更高、更具前景的路径。
  • 图表
  • 解决问题
    论文试图解决人工智能视觉与人类视觉之间存在的显著不一致问题,包括AI对纹理特征的过度依赖、对图像失真缺乏鲁棒性、对对抗攻击高度脆弱,以及在复杂背景中识别抽象形状的能力不足。这个问题是一个长期存在且尚未被充分解决的挑战。
  • 关键思路
    论文的关键思路是通过模仿人类视觉从婴儿期到成年的发展过程来训练AI视觉系统,而不是传统的扩大模型规模的方式。作者提出了一种基于人类发展心理学和神经生理学研究的人类启发式视觉训练课程(Developmental Visual Diet, DVD),用于引导AI学习更接近人类的行为模式。
  • 其它亮点
    {引入了全新的'视觉成熟度'概念,并将其转化为AI训练方法,实验表明该方法显著提升了模型对形状信息的依赖程度,达到目前最高水平,在抽象形状识别、图像损坏鲁棒性和对抗攻击防御方面均超越现有SOTA方法,在使用更少数据和参数的情况下优于大规模基础模型,证明了训练方式的重要性,为构建更安全、更高效、更接近人类行为的AI视觉系统提供了新路径}
  • 相关研究
    {"Geirhos et al., 'ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness', ICLR 2019","Hermann et al., 'Shapes, scenes, and stimuli: The relative contribution of different visual categories to the development of invariant object recognition in human vision', Journal of Vision 2018","Engel et al., 'Are we ready for artificial vision systems that emulate biological vision?', NeurIPS Workshop 2021","Zhou et al., 'Learning rich features through progressive learning from a developmental dataset inspired by human infancy', CVPR 2022","Kellman et al., 'The advantage of abstract representations in pattern recognition: Insights from studies of perceptual development', Psychological Review 2020"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论