- 简介这个视觉世界提供了丰富的信息,但许多输入像素通常包含分散注意力的刺激。自主智能体需要有区分有用信息和任务无关感知的能力,使它们能够推广到具有新干扰的未见环境。现有的研究方法使用数据增强或具有附加损失函数的大型辅助网络来解决这个问题。我们介绍了一种新算法MaDi,它仅通过奖励信号学习屏蔽干扰的能力。在MaDi中,深度强化学习智能体的传统演员-评论家结构补充了一个小的第三个兄弟-遮罩器。这个轻量级神经网络生成一个遮罩来确定演员和评论家将接收什么,以便它们可以专注于学习任务。这些遮罩是根据当前输入动态创建的。我们在DeepMind控制泛化基准测试、Distracting控制套件和真实的UR5机械臂上进行了实验。我们的算法通过有用的遮罩改善了智能体的注意力,而其高效的遮罩器网络仅增加了原始结构的0.2%的参数,与之前的工作形成了对比。MaDi始终实现了比现有最先进方法更好或相当的泛化结果。
- 图表
- 解决问题本论文旨在解决自主智能体在面对复杂环境时,如何从大量的输入数据中区分有用信息和无用信息,以便能够在新的环境中进行泛化。
- 关键思路本文提出了一种名为MaDi的算法,该算法通过奖励信号来学习遮盖分散注意力的干扰信息。MaDi算法将深度强化学习代理的传统演员-评论家结构与一个轻量级的神经网络Masker相结合,该网络生成一个掩码以确定演员和评论家将接收什么信息,从而使它们能够专注于学习任务。掩码是动态生成的,取决于当前的输入。相比之前的工作,MaDi的Masker网络只增加了0.2%的参数。
- 其它亮点本文通过在DeepMind Control Generalization Benchmark、Distracting Control Suite和真实的UR5机械臂上进行实验,证明了MaDi算法可以通过有用的掩码来提高代理的注意力,同时其高效的Masker网络只增加了0.2%的参数。此外,本文的方法在泛化结果方面优于或与现有的最先进方法相竞争。值得注意的是,本文提出的MaDi算法还没有开源代码。
- 最近在这个领域中,还有一些相关的研究,例如:《Data-Efficient Hierarchical Reinforcement Learning》、《Reinforcement Learning with Attention that Works: A Self-Supervised Approach》等。
沙发等你来抢
去评论
评论
沙发等你来抢