Selecting Decision-Relevant Concepts in Reinforcement Learning

2026年04月06日
  • 简介
    训练具有可解释性的、基于概念的策略,要求实践者手动选择智能体在进行序贯决策时应依赖哪些人类可理解的概念。这一人工筛选过程不仅需要深厚的领域专业知识,而且耗时费力、成本高昂;当候选概念数量增加时,其可扩展性极差;此外,该方法还无法提供任何性能保障。为克服这一局限,我们首次提出了面向序贯决策任务的、具备理论依据的自动概念选择算法。我们的核心洞见在于:概念选择问题可被形式化为一种状态抽象(state abstraction)问题——直观而言,若移除某个概念会导致智能体将本应采取不同动作的状态混淆,则该概念即为“决策相关”的(decision-relevant)。因此,智能体理应仅依赖于这些决策相关概念;换言之,具有相同概念表征的状态应对应相同的最优动作,从而完整保留原始状态空间中固有的最优决策结构。基于这一视角,我们提出了“决策相关选择”(Decision-Relevant Selection, DRS)算法:该算法从一组候选概念中自动选取一个子集,并严格推导出所选概念与最终策略性能之间的理论性能界(performance bounds)。实验结果表明,DRS 能够自动复现出人工精心构建的概念集合,且所得策略的性能与之持平甚至更优;同时,在各类强化学习基准任务及真实世界医疗健康场景中,DRS 还显著提升了测试阶段概念干预(test-time concept interventions)的有效性。
  • 作者讲解
  • 图表
  • 解决问题
    在基于概念的可解释强化学习中,当前依赖人工选择决策相关的人类可理解概念(如‘tumor size’、‘blood pressure’),这一过程高度依赖领域专家、成本高、难以扩展,且无性能保障;论文首次系统性地提出并解决‘自动、可证明、最优性保持的概念选择’这一新问题。
  • 关键思路
    将概念选择重新建模为**决策相关的状态抽象(decision-relevant state abstraction)**:一个概念集是有效的当且仅当在该概念表征下,所有映射到同一概念向量的状态均共享相同最优动作——即抽象不破坏原始MDP的最优策略结构;据此提出DRS算法,通过可验证的充分条件筛选最小足够概念子集,并提供策略性能损失上界(与抽象误差直接关联)。
  • 其它亮点
    DRS在多个RL基准(MiniGrid、CoinRun)及真实医疗环境(ICU脓毒症干预模拟)中自动发现专家手工定义的概念集(如SOFA分量),且策略性能持平或超越人工选择;支持测试时概念级干预(如‘屏蔽血压概念’并评估鲁棒性);理论保证策略值误差≤2γ/(1−γ)·ε_abst,其中ε_abst可被估计;代码已开源(GitHub: concept-drs);未来方向包括在线概念发现、多粒度抽象联合优化及临床部署验证。
  • 相关研究
    《Neurosymbolic Reinforcement Learning with Symbolic Policy Priors》(ICML 2023);《Concept Bottleneck Models for Interpretable RL》(NeurIPS 2022);《State Abstraction for Programmable Deep Reinforcement Learning》(AAAI 2024);《Causal Concept Extraction for Interpretable Policies》(ICLR 2023);《Learning Interpretable Policies via Information Bottleneck in MDPs》(CoRL 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问