AI TIME | 姚顺雨博士：文本游戏中基于语言模型的动作生成

“你在卧室，东边是一个走廊，西边有一个紧闭的木门，屋子中间有一个厚地毯，一个储物柜，你有一个钥匙……”在文本游戏里这样的观察（observation）下你会做什么探索？“向东走”，“揭开地毯”，“用钥匙开木门”，“打开柜子”？……生成这些候选动作（action candidates）需要充分的语言和常识理解。之前的模型往往通过游戏的作弊器（handicap）或人造规则（ad-hoc rules）生成候选动作，然而这样方法缺少对语言的学习理解，且难以泛化。我们提出利用一种语言模型 CALM（n-gram，GPT-2）学习动作生成的任务，并收集了ClubFloyd Dataset，其中有不同人类选手在超过500种游戏里20万组动作生成的数据。CALM训练后被用作动作生成器与强化学习结合，并在未训练的游戏上取得了state-of-art的游戏分数。

本文是对AI TIME的PhD直播间分享活动的总结，邀请到了Princeton NLP Group博士生姚顺进行分享，分享的主题是文本游戏中基于语言模型的动作生成，感兴趣的可以戳原文链接。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

AI TIME | 姚顺雨博士：文本游戏中基于语言模型的动作生成

评论列表

评论