视觉运动感知Visual motion perception是智能体与环境交互的关键功能。基于深度神经网络,光流估计的最新进展已经超过了人类水平的精度,但仍然存在显著的差异。除了基于亮度的一阶运动感知限制之外,人类还可以感知高阶特征中的运动——这是取决于强度守恒定律的传统光流模型所缺少的能力。

近日,京都大学Zitang Sun,Shin'ya Nishida等,在Nature Machine Intelligence上发文,提出了模拟大脑皮层V1-MT运动处理通路的双通路模型。

利用可训练的运动能量传感器组和循环图网络,以处理基于亮度的运动,并将传感路径与多层3D CNN模块的非线性预处理相结合,以捕获高阶运动信号。据假设,在包含复杂光学波动的自然环境中(例如,光滑表面上的高光),高阶机制对于估计鲁棒的物体运动,是至关重要的。通过在具有移动物体的不同材料属性运动数据集上进行训练,这种双路径模型自然地发展了像人类一样感知多阶运动的能力。

由此产生的模型,可以有效地与生物系统保持一致,同时推广了自然场景中,基于亮度的运动现象和高阶运动现象。

Machine learning modelling for multi-order human visual motion processing. 

多阶人类视觉运动处理的机器学习建模。


图1:两级运动感知系统概述。


图2:循环运动积分。


图3:自然场景中,循环运动整合。


图4:材料控制运动数据集和二阶基准演示。


图5:材料属性和二阶运动感知之间相互作用。

该项研究,提出了一种模拟人脑视觉皮层处理机制的双通路深度学习模型。该模型通过可训练的运动能量传感器(一阶通道)和3D CNN高阶特征提取器(二阶通道),实现与人类似的多阶运动感知能力。实验采用定制化材料数据集(漫反射/非漫反射物体),证明生物系统演化出高阶运动感知是为应对非朗伯材质(如金属、玻璃)表面的光学噪声干扰。该模型在自然场景中运动估计准确率超越主流CV算法,相关系数达0.90,为开发抗干扰的仿生视觉传感器提供新范式。
  1. 揭示材质-运动感知关联机制
    证明非漫反射材质的光学噪声(如镜面反射、透明折射)是驱动生物系统演化高阶运动感知的关键因素,为仿生材料设计提供理论依据。

  2. 赋能抗干扰视觉材料开发
    模型在非漫反射材质场景中运动估计相关性达0.90(图5c),验证了动态纹理特征提取对光学噪声的鲁棒性,指导开发新型抗干扰成像涂层(如自动驾驶传感器镀膜)。

  3. 开源材质数据集推动交叉研究
    公开的漫反射/非漫反射运动数据集(Zenodo存档)为材料科学、计算机视觉的跨学科研究建立新基准,尤其促进光学-机器学习协同设计领域发展。

    数据集与代码:https://github.com/anoymized/multi-order-motion-model


文献链接
Sun, Z., Chen, YJ., Yang, YH. et al. Machine learning modelling for multi-order human visual motion processing. Nat Mach Intell (2025).
 https://doi.org/10.1038/s42256-025-01068-w
本文译自Nature。
来源:今日新材料
声明:仅代表译者观点,如有不科学之处,请在下方留言指正!

内容中包含的图片若涉及版权问题,请及时与我们联系删除