DeepMind官方博客在一篇文章“Fast reinforcement learning through the composition of behaviours”中,针对强化学习中的“从头学习”问题给予了解决方案。文章中表示,人类处理一些新任务时候,例如做菜,往往能够利用之前学过的知识、技能。而强化学习中的智能体往往需要从头学习。
针对上述挑战,DeepMind的研究员们采用了一种名为“后继特征”特征的方案,其效果是:智能体可以将一个问题分解为更小的、更易于管理的子任务,而不是将其作为一个单一的、整体的任务来处理。研究员在博客中表示,其能够提供了一种学习灵活解决问题的新方法,能够赋予 RL 智能体利用从之前的任务中学到的知识的能力。
本文对其做了不改变原意的编译,感兴趣的可以戳原文。

内容中包含的图片若涉及版权问题,请及时与我们联系删除