- 简介在人类的决策任务中,个体通过试错和预测误差来学习。当个体学习任务时,有些人更受良好结果的影响,而另一些人则更重视不良结果。这种确认偏差可能导致不同的学习效果。在本研究中,我们提出了一种新的深度强化学习算法CM-DQN,该算法应用了针对正面或负面预测误差的不同更新策略的思想,以模拟当任务状态连续而动作离散时,人类决策过程。我们在Lunar Lander环境中进行了测试,包括确认性偏差、反证性偏差和非偏差,以观察学习效果。此外,我们将确认模型应用于多臂老虎机问题(离散状态和离散动作的环境),利用与我们提出的算法相同的思想,作为对比实验,以算法模拟不同确认偏差对决策过程的影响。在两个实验中,确认性偏差表明了更好的学习效果。我们的代码可以在这里找到 https://github.com/Patrickhshs/CM-DQN。
- 解决问题该论文旨在解决人类决策过程中的确认偏差问题,即不同的个体在学习任务时,对于好的结果或坏的结果的权重不同,导致学习效果不同。同时,该论文还试图验证新算法CM-DQN在连续状态和离散动作的任务中的有效性。
- 关键思路该论文提出了一种新的深度强化学习算法CM-DQN,应用了不同的更新策略来模拟人类决策过程中的确认偏差,以解决连续状态和离散动作的任务中的学习问题。
- 其它亮点论文在Lunar Lander环境中进行了实验,同时还在多臂赌博机问题中进行了对比实验。实验结果表明,确认偏差有利于学习效果。此外,该论文提供了开源代码。
- 在最近的相关研究中,还有一些研究探讨了深度强化学习算法中的不同更新策略,例如Ape-X DQN和Rainbow等。
沙发等你来抢
去评论
评论
沙发等你来抢