- 简介这段摘要介绍了顺序决策制定算法,这些算法考虑了环境的动态性,早期的决策会影响后续的决策。由于大型语言模型(LLM)在任务之间展示了强大的能力,因此我们不禁要问:当前的LLM是否能够有效地做出顺序决策?为了回答这个问题,我们提出了基于UNO纸牌游戏的UNO Arena,以评估LLM的顺序决策能力,并详细解释了为什么选择UNO。在UNO Arena中,我们使用基于蒙特卡罗方法的新型指标动态评估LLM的顺序决策能力。我们设置了随机玩家、基于DQN的强化学习玩家和LLM玩家(例如GPT-4、Gemini-pro)进行比较测试。此外,为了提高LLM的顺序决策能力,我们提出了TUTRI玩家,它可以让LLM根据游戏历史和游戏策略反思自己的行动。大量实验表明,与普通的LLM玩家相比,TUTRI玩家在顺序决策性能方面取得了显著突破。
- 图表
- 解决问题评估当前大型语言模型在顺序决策方面的能力,并提出改进方法
- 关键思路使用基于UNO卡牌游戏的UNO Arena评估大型语言模型的顺序决策能力,并提出TUTRI玩家改进模型
- 其它亮点使用Monte Carlo方法动态评估大型语言模型的表现,比较了随机玩家、DQN强化学习玩家和大型语言模型玩家的表现,提出了TUTRI玩家模型,取得了显著的表现提升
- 最近的相关研究包括《Large-scale Language Model Parameter Estimation Using Distributed MCMC》、《Improving Language Understanding by Generative Pre-Training》等
沙发等你来抢
去评论
评论
沙发等你来抢