在评估选择时,人们经常遭受两个悲剧性的相对论。首先,当我们的生活变得更好时,我们会迅速适应更高的生活水平。其次,我们不能逃避将自己与各种相关标准进行比较。「习惯」和「比较」可能会对决策和幸福造成非常大的破坏,迄今为止,为什么它们首先成为认知的一部分仍然是一个谜。

在这里,普林斯顿大学的研究人员提出的计算证据表明这些特征可能在促进适应性行为中发挥重要作用。使用强化学习的框架,他们探索了使用奖励函数的好处,除了基础任务提供的奖励之外,还取决于先前的期望和相对比较。

该团队发现,虽然配备了这种奖励功能的智能体不太开心,但它们学习速度更快,并且在各种环境中显着优于标准基于奖励的智能体。具体来说,相对比较通过为代理提供探索激励来加速学习,并且先前的期望对比较有帮助,尤其是在奖励稀疏和非平稳的环境中。

他们的模拟还揭示了这种奖励函数的潜在缺点,并表明当不检查比较以及有太多类似选项时,代理的表现并不理想。总之,该研究的结果有助于解释为什么人们容易陷入永无止境的欲望和欲望的循环中,并可能揭示抑郁、物质主义和过度消费等精神病理学。

该研究以「The pursuit of happiness: A reinforcement learning perspective on habituation and comparisons」为题,于 2022 年 8 月 4 日发布在《Plos Computational Biology》。

论文链接:https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1010316

内容中包含的图片若涉及版权问题,请及时与我们联系删除