“你在卧室,东边是一个走廊,西边有一个紧闭的木门,屋子中间有一个厚地毯,一个储物柜,你有一个钥匙……”在文本游戏里这样的观察(observation)下你会做什么探索?“向东走”,“揭开地毯”,“用钥匙开木门”,“打开柜子”?……生成这些候选动作(action candidates)需要充分的语言和常识理解。之前的模型往往通过游戏的作弊器(handicap)或人造规则(ad-hoc rules)生成候选动作,然而这样方法缺少对语言的学习理解,且难以泛化。我们提出利用一种语言模型 CALM(n-gram,GPT-2)学习动作生成的任务,并收集了ClubFloyd Dataset,其中有不同人类选手在超过500种游戏里20万组动作生成的数据。CALM训练后被用作动作生成器与强化学习结合,并在未训练的游戏上取得了state-of-art的游戏分数。
本文是对AI TIME的PhD直播间分享活动的总结,邀请到了Princeton NLP Group博士生姚顺进行分享,分享的主题是文本游戏中基于语言模型的动作生成,感兴趣的可以戳原文链接。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢