DRUGONE
深度神经网络(DNN)在视觉基准任务上性能提升的早期阶段,曾表现出与灵长类感知系统不断增强的一致性,这一现象一度让人们期待:人工智能(AI)的进步会自然带来更好的生物视觉模型。然而,研究人员指出,越来越多的证据表明,这种一致性如今已趋于停滞,甚至在某些情况下出现倒退,尤其是在 DNN 达到人类甚至超人水平准确率之后。
人工视觉与生物视觉之间的这种分化,可能源于模型逐渐学会了不同于灵长类的视觉策略。这一发现挑战了“AI 工程进步会自然转化为神经科学进展”的普遍观点。研究人员认为,视觉科学必须走出一条独立的发展道路,构建扎根于生物视觉系统本身的算法,而非单纯围绕互联网数据进行优化。

深度学习对视觉科学的变革性承诺
在 AlexNet 引发现代 AI 革命的一年后,研究人员发现:在感知任务(如物体识别)上进行任务优化训练的 DNN,其内部单元对图像的响应方式与灵长类下颞皮层神经元高度相似。这一发现迅速改变了视觉科学领域的研究范式。
DNN 不再只是对图像进行分类的工程工具,而被视为能够解释神经计算并解决长期争论的生物模型。例如,针对物体分类进行预训练的模型更好地预测了下颞皮层反应,这为“核心物体识别”理论提供了计算层面的支持。更重要的是,这类结果暗示:只要不断推动 AI 在工程任务上的性能提升,生物视觉的基本原理就会随之自然浮现。
过去十余年间,DNN 在视觉任务上的能力取得了飞跃式进展,当前最先进的模型在几乎所有视觉基准上都已达到或超过人类水平。这种进步主要源于模型规模与训练数据规模的指数级扩展,以及注意力架构对并行计算的高度适配。
然而,尽管这些模型在复杂任务上表现卓越,它们仍在一些对人类而言极其简单的问题上表现出“怪异行为”,例如计数或视角预测。这种“准确率接近人类,但行为方式却显得异类”的现象,引出了一个关键问题:持续围绕 AI 基准进行工程优化,是否仍在推动模型向生物视觉靠拢,还是已经使其偏离了生物学原理?
深度学习如何重塑视觉科学
任务优化的深度学习方法已成为计算神经科学中最流行的建模手段之一。这类模型在预测灵长类神经元对图像刺激的反应方面表现出极高的准确性,对神经假体和体内模拟研究具有重要价值。同时,任务优化也被视为揭示视觉回路形成原则的重要工具。
早期研究发现,相比直接拟合神经数据的模型,为物体分类而训练的 DNN 更能预测视觉皮层中高级区域的神经活动,这被解读为灵长类视觉系统围绕“识别物体”这一目标进行组织的证据。后续研究还表明,即使不显式优化分类目标,自监督学习模型也能达到相近的神经预测效果。这说明任务优化虽然重要,但具体任务与神经结构之间的关系仍未完全厘清。
在建模人类感知方面,任务优化同样取得了显著成功。大量心理物理实验表明,随着模型在视觉基准上的准确率提升,其决策结果及错误模式越来越接近人类。DNN 还能预测多种人类感知现象,包括局部—整体偏好、语义相似性判断、显著性评估以及三维属性感知。
然而,即便经过任务优化,一些关键的人类感知现象仍难以复现,例如视觉错觉和“变形同感”(即物理刺激不同但感知相同的情况),这通常需要额外机制才能模拟。
为系统评估模型的生物学合理性,视觉神经科学界构建了专门的生物基准体系,用于衡量模型对神经和行为数据的预测能力。其中,Brain-Score 提供了一个持续更新的平台,使研究人员能够比较模型在工程任务与生物任务上的表现,从而揭示二者之间的关系。
任务优化在现代 DNN 中的效果正在减弱
尽管任务优化在早期具有变革性意义,但随着模型性能不断提升,这一策略在建模生物视觉方面正变得越来越不可靠。研究人员在 Brain-Score 基准中发现:DNN 在物体分类准确率提升到一定程度后,其与下颞皮层神经元响应的一致性不再提升,反而开始下降。
类似趋势在不同实验数据中反复出现。大量模型分析表明,即便某些模型在物体识别任务上达到或超过人类水平,它们却已经演变为极差的灵长类视觉模型。这一现象意味着,推动 AI 性能提升的计算策略,与支撑生物视觉的机制可能已根本不同。
进一步分析显示,在早期模型中,架构改进、训练数据增加和性能提升通常会带来更好的神经一致性;但在当今高性能模型中,这种关系已完全崩溃。无论是模型规模、网络类型,还是训练数据来源,都无法预测其是否更符合生物视觉。这种脱钩现象表明,AI 的成功路径正在偏离生物进化所选择的计算策略。

图 1|随着识别准确率的提升,深度神经网络(DNN)与生物视觉逐渐偏离。
为什么任务优化如今反而削弱了生物建模能力?
一种可能的解释是,随着模型规模扩大,DNN 逐渐学会了生物视觉系统难以利用的“捷径式”视觉策略。研究人员通过大规模实验发现,随着模型准确率超过人类,其所依赖的视觉特征与人类显著不同,越来越倾向于背景纹理、全局统计特征,甚至与任务无关的图像线索。
这些发现表明,现代 DNN 正在混合使用“类人”的策略与明显非生物的策略。这种混合策略在工程应用中可能非常有效,但对理解大脑和行为的价值却越来越有限。

图 2|深度神经网络(DNN)的设计因素与生物一致性。
如果任务优化不再奏效,出路在哪里?
任务优化深度学习最初的吸引力在于:通过工程优化即可自然揭示生物视觉原理。如今这一假设正在失效,迫使视觉科学重新思考建模路径。
研究人员提出了一种直接以生物一致性为目标的监督策略,使模型在训练过程中对齐人类所使用的诊断性视觉特征。结果表明,经此“协调化”训练的模型不仅更依赖类人的视觉特征,也在神经层面更接近灵长类视觉皮层。
这些结果说明,DNN 仍然是可行的建模框架,但关键问题不在于模型本身,而在于训练目标与数据分布的不匹配。单纯依赖互联网规模的静态图像数据,正在系统性地将模型推离生物视觉。

图 3|通过训练,深度神经网络(DNN)可采用类人的视觉策略。
在互联网规模计算时代重新思考任务优化
视觉科学中的计算模型长期运行在远小于前沿 AI 的尺度上,这既源于学术传统,也源于对可解释性的重视。然而,生物一致性或许只有在大规模训练下,结合合适的数据、目标和约束才能显现。
研究人员提出,与其过早在架构中强加生物约束,不如从可扩展的通用架构出发,系统探索哪些数据分布与学习目标能够自然诱导出类人的表示和行为。在此基础上,再逐步引入其他生物特性,构建对视觉系统的完整解释。
结论
DNN 曾在性能提升的同时不断逼近灵长类视觉,但这一趋势已在达到人类水平后停滞甚至逆转。这一现象表明,更强的人工智能并不意味着更好的生物学模型。
视觉科学若要取得实质性进展,必须摆脱对工程基准的单向依赖,转而构建以生物原理为核心的数据、目标与训练范式。
未解问题(Outstanding questions)
如何为 DNN 构建更接近真实生物经验的训练环境?
哪些学习原则能够引导模型形成类人的视觉表征?
哪些生物约束是视觉系统的核心原理,哪些只是实现层面的副产物?
整理 | DrugOne团队
参考资料
Linsley, Drew, Pinyuan Feng, and Thomas Serre. "Better artificial intelligence does not mean better models of biology." Trends in Cognitive Sciences (2025).

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢