- 简介地球生命的一个标志性特征,是生命体具备施加因果影响力并成为后续事件驱动者的能力。这一能力在所有尺度的认知过程中都至关重要。因果涌现(causal emergence)即衡量一个主体对其未来所具有的独特预测能力的程度,正是这种因果力所产生的一个直接结果。事实上,近期研究发现,即便是结构最简单的生物体,在习得新记忆后,其因果涌现程度也会随之提升。然而,目前我们对人工智能体(尤其是人工代理)在多大程度上具备因果涌现性,仍存在显著的知识空白。本研究聚焦于神经网络型智能体在强化学习(Reinforcement Learning, RL)框架下的表现,系统考察了多种环境条件——涵盖不同强化学习算法、不同智能体网络架构,以及按复杂度由低到高排列的六类任务环境。为确保方法一致,我们全程计算并追踪了这些智能体在其“生命周期”内潜空间表征(latent-space representations)的因果涌现程度。我们采用近期提出的ΦID(Integrated Information Decomposition)方法来量化因果涌现,并检验其与学习性能之间的关联。研究结果支持“因果涌现对齐假说”(Causally Emergent Alignment Hypothesis):表现优异的智能体普遍展现出一种稳定的因果涌现模式——其因果涌现水平在训练初期即能持续、可靠地预测最终累积奖励;且其表征动态演化过程与各任务中奖励值的提升趋势高度一致。这一观点提示,因果涌现可能构成强化学习智能体神经表征重构过程中一条此前未被揭示的关键维度,有望据此建立更可靠的因果关系模型,并设计出更具针对性的干预手段,从而推动更高效、更鲁棒的强化学习智能体的发展。此外,本研究亦凸显出“因果涌现”与“学习进程”之间的协同对齐现象,这为理解生物智能体与人工智能体在认知机制上的深层共性,提供了又一重要视角。
-
- 图表
- 解决问题论文试图解决人工智能代理(特别是强化学习神经网络代理)是否具备类似生物体的‘因果涌现’(causal emergence)能力这一根本性问题,并验证‘因果涌现程度能否作为预测学习性能的早期指标’这一假设;该问题在AI可解释性与认知建模交叉领域属新问题,此前缺乏对人工代理因果涌现动态演化的系统性量化研究。
- 关键思路提出并验证‘因果涌现对齐假说’(Causally Emergent Alignment Hypothesis):成功RL代理的潜在空间表征在训练早期即展现出与最终奖励强相关的因果涌现(ΦID度量),且其因果涌现轨迹与奖励提升轨迹在时序上动态对齐;这是首次将信息分解框架ΦID系统应用于RL代理全生命周期表征分析,并将因果涌现定位为独立于传统性能指标(如reward、loss)的认知组织新轴。
- 其它亮点实验覆盖6个复杂度梯度环境(MiniGrid至MazeBase)、多种RL算法(PPO、SAC、DQN)及网络架构(CNN、RNN、Transformer);统一使用ΦID量化潜空间的因果涌现,发现其早于收敛20–40%训练步即能预测最终性能(r>0.85);代码已开源(GitHub: causal-rl-bench);亮点包括:首次揭示RL中表征因果性与功能性改善的耦合现象、为‘AI是否真正理解因果’提供可量化证据、提示未来可探索基于ΦID的因果正则化训练目标。
- ‘Causal Emergence in Neural Systems’ (Hoel et al., PLOS Comput Biol 2016); ‘ΦID: Partial Information Decomposition’ (Rosas et al., Entropy 2020); ‘Neural Representations of Causal Structure in RL’ (Gopnik et al., Nature Human Behaviour 2022); ‘Causal Discovery for Reinforcement Learning’ (Zhang et al., NeurIPS 2023); ‘Measuring Agency via Causal Influence’ (Luppi et al., ICML 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流