UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models

简介

这段摘要介绍了顺序决策制定算法，这些算法考虑了环境的动态性，早期的决策会影响后续的决策。由于大型语言模型（LLM）在任务之间展示了强大的能力，因此我们不禁要问：当前的LLM是否能够有效地做出顺序决策？为了回答这个问题，我们提出了基于UNO纸牌游戏的UNO Arena，以评估LLM的顺序决策能力，并详细解释了为什么选择UNO。在UNO Arena中，我们使用基于蒙特卡罗方法的新型指标动态评估LLM的顺序决策能力。我们设置了随机玩家、基于DQN的强化学习玩家和LLM玩家（例如GPT-4、Gemini-pro）进行比较测试。此外，为了提高LLM的顺序决策能力，我们提出了TUTRI玩家，它可以让LLM根据游戏历史和游戏策略反思自己的行动。大量实验表明，与普通的LLM玩家相比，TUTRI玩家在顺序决策性能方面取得了显著突破。
图表
解决问题

评估当前大型语言模型在顺序决策方面的能力，并提出改进方法
关键思路

使用基于UNO卡牌游戏的UNO Arena评估大型语言模型的顺序决策能力，并提出TUTRI玩家改进模型
其它亮点

使用Monte Carlo方法动态评估大型语言模型的表现，比较了随机玩家、DQN强化学习玩家和大型语言模型玩家的表现，提出了TUTRI玩家模型，取得了显著的表现提升
相关研究

最近的相关研究包括《Large-scale Language Model Parameter Estimation Using Distributed MCMC》、《Improving Language Understanding by Generative Pre-Training》等

UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models

评论