- 简介有关目的性行为的计算模型包括描述性和规范性两个方面。前者使代理能够确定世界上当前或未来的状态,后者则评估这些状态对于代理的目标的可取性或不可取性。在强化学习中,规范性方面(奖励和价值函数)被认为依赖于预定义和固定的描述性方面(状态表示)。或者,这两个方面可以相互独立地出现:目标可以用状态表示特征来表达,但它们也可以用来塑造状态表示本身。在这里,我们阐述了有关有限代理状态表示学习的新理论框架,通过目标导向或目的性状态的概念将描述性和规范性两个方面相互耦合。我们定义了一个新的目的性状态表示可控性属性,以表征其粒度和策略复杂性容量之间的权衡,以达到所有目的性状态所需的容量。我们提出了一种学习可控状态表示的算法,并用一个简单的导航任务演示了它。我们的框架强调了有意忽略的重要作用 - 即知道忽略什么 - 以学习既具有目标灵活性又简单的状态表示。更广泛地说,我们的工作通过目标的视角提供了一个统一的自然和人工学习的理论视角。
- 图表
- 解决问题论文试图探讨如何通过目标导向状态来联合描述和规范智能体的行为,以及如何学习可控的状态表示来平衡粒度和策略复杂性的关系。
- 关键思路论文提出了一种新的理论框架,将描述性和规范性方面通过目标导向状态相互耦合起来,并定义了可控性属性来平衡状态表示的粒度和策略复杂性,进而提出了一种学习可控状态表示的算法。
- 其它亮点论文通过一个简单的导航任务来演示提出的算法,并强调了有意忽略某些信息的重要性,同时提供了自己的实验结果和开源代码。此外,论文提供了一个统一的理论视角,将自然和人工智能学习的过程联系起来。
- 最近的相关研究包括:'Deep Reinforcement Learning with Successor Features for Navigation across Similar Environments'和'Learning State Abstractions for Transfer in Reinforcement Learning'等。
沙发等你来抢
去评论
评论
沙发等你来抢