【论文标题】Learning Rewards from Linguistic Feedback

【作者团队】Theodore R.Sumers, Mark K. Ho, Robert D. Hawkins, Karthik Narasimhan, Thomas L Griffiths

【发表时间】2021

【论文链接】https://www.aaai.org/AAAI21Papers/AAAI-9953.SumersT.pdf

【推荐理由】语言系统中的交互学习的先验知识多半假设其输入形式较为特殊,而智能体学习的挑战在于如何将其行为和环境下的自然反馈进行翻译,以推理教师的偏好。本文则研究了将非约束自然语言反馈作为智能体的学习信号的方法,并提出了一个可避开上述假设的框架,使用基于面向的情感分析来将反馈分解为关于MDP特征的情感信息,并利用逆强化学习方法来将特征向的情感信息回退,以对教师的潜在奖励方程进行推理,可从人类交互中端到端的预测潜在奖励。实验表明,本文方法对在推理网络的性能上有极大改善。

内容中包含的图片若涉及版权问题,请及时与我们联系删除