- 简介文本游戏(TBGs)已经成为自然语言处理(NLP)任务的重要集合,要求强化学习(RL)代理人将自然语言理解与推理相结合。代理人尝试解决这些任务的一个关键挑战是在多个游戏中进行泛化,并在已知和未知对象上展示良好的性能。纯深度RL方法可能在已知对象上表现良好;然而,它们在未知对象上表现不佳。融入常识的深度RL代理人可能在未知数据上工作得更好;不幸的是,它们的策略通常不易解释或易于转移。为了解决这些问题,在本文中,我们提出了EXPLORER,这是一个文本强化学习的探索引导推理代理。EXPLORER的本质是神经符号化,因为它依赖于用于探索的神经模块和用于开发的符号模块。它还可以学习广义符号策略,并在未知数据上表现良好。我们的实验表明,EXPLORER在Text-World cooking(TW-Cooking)和Text-World Commonsense(TWC)游戏上优于基线代理。
- 图表
- 解决问题本文旨在解决文本强化学习中的通用化问题,即如何在多个游戏中进行泛化,并在已知和未知对象上展现良好的性能。
- 关键思路本文提出了一种基于探索引导的推理代理EXPLORER,它是神经符号化的,结合了神经模块和符号模块,可以学习泛化的符号策略,并在未知数据上表现良好。
- 其它亮点本文的实验表明,EXPLORER在Text-World cooking (TW-Cooking)和Text-World Commonsense (TWC)游戏中表现优于基线代理。本文的亮点在于它提出了一种新的解决方案,结合了神经网络和符号逻辑,解决了通用化和可解释性的问题。实验使用了公开数据集,但未开源代码。值得进一步研究的是如何将这种方法应用到其他文本游戏中,以及如何将其扩展到其他NLP任务中。
- 在文本强化学习领域,最近的相关研究包括:1.《Learning to Navigate Unseen Environments: Back Translation with Environmental Dropout》2.《Text-based RL Agents with Commonsense Reasoning》3.《TextWorld: A Learning Environment for Text-based Games》
沙发等你来抢
去评论
评论
沙发等你来抢