Goals as Reward-Producing Programs

简介

人类非常擅长制定自己的目标，从儿童游戏一直延续到成年。尽管在目标和目标导向行为方面进行了相当多的实证和计算工作，但是模型仍远未捕捉到日常人类目标的丰富性。在这里，我们通过收集人类生成的玩乐目标数据集，将其建模为产生奖励的程序，并通过程序合成生成新的类人类目标，从而弥合了这一差距。产生奖励的程序通过符号操作来捕捉目标的丰富语义，包括组合、添加时间约束，并允许在行为轨迹上执行程序以评估进展。为了构建目标的生成模型，我们学习了一个适应度函数，覆盖了可能的目标程序的无限集合，并使用质量-多样性算法对新的目标进行采样。人类评估者发现，当从人类示例所占据的程序空间的分区中采样时，模型生成的目标与人类创建的游戏无法区分。我们还发现，我们模型的内部适应度得分可以预测被评为更有趣和更类人类的游戏。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图通过收集人类生成的有趣目标，建模为奖励生成程序，并通过程序合成生成类似于人类的新目标，从而弥补当前模型无法捕捉日常人类目标丰富性的缺陷。
关键思路

通过奖励生成程序来建模人类生成的目标，采用质量-多样性算法生成新目标。
其它亮点

论文收集了人类生成的有趣目标数据集，使用奖励生成程序来建模这些目标，并采用质量-多样性算法生成新目标。实验结果表明，模型生成的目标与人类创建的游戏无异，并且内部的适应度分数预测了评估为更有趣和更类人的游戏。
相关研究

最近的相关研究包括基于深度学习的目标生成模型和基于演化算法的游戏生成模型，例如《Curiosity-driven Exploration by Self-supervised Prediction》和《Evolving Mario Levels in the Latent Space of a Deep Convolutional Generative Adversarial Network》。

Goals as Reward-Producing Programs

提问交流

提问交流