【标题】Play with Emotion: Affect-Driven Reinforcement Learning

【作者团队】Matthew Barthet, Ahmed Khalifa, Antonios Liapis

【发表日期】2022.8.26

【论文链接】https://arxiv.org/pdf/2208.12622

【推荐理由】本文通过将影响建模的任务视为强化学习(RL)过程,引入了范式转变。根据拟议的范式,RL智能体通过尝试通过其环境(即背景)来最大化一组奖励(即行为和情感模式)来学习政策(即情感互动)。本文的假设是,RL是一种有效的范式,可以将情感激发和表现与行为和情感展示交织在一起。基于达马西奥的躯体标记假设,本文的第二个假设是情绪可以是决策的促进者。通过训练Go混合智能体来模拟人类的觉醒和行为,在一场比赛中测试以上假设;Go Blend是Go Explore算法的一个改进版本,最近在硬探索任务中表现出了卓越的性能。作者首先改变基于唤醒的奖励函数,观察能够根据指定奖励有效显示情感和行为模式调色板的智能体。然后,使用基于唤醒的状态选择机制来偏向Go Blend探索的策略。研究结果表明,Go Blend不仅是一种有效的情感建模范式,更重要的是,情感驱动的RL改进了探索并产生了更高性能的智能体,验证了达马西奥在游戏领域的假设。