UNO Arena for Evaluating Sequential Decision-Making Capability of Large Language Models

2024年06月24日
  • 简介
    这段摘要介绍了顺序决策制定算法,这些算法考虑了环境的动态性,早期的决策会影响后续的决策。由于大型语言模型(LLM)在任务之间展示了强大的能力,因此我们不禁要问:当前的LLM是否能够有效地做出顺序决策?为了回答这个问题,我们提出了基于UNO纸牌游戏的UNO Arena,以评估LLM的顺序决策能力,并详细解释了为什么选择UNO。在UNO Arena中,我们使用基于蒙特卡罗方法的新型指标动态评估LLM的顺序决策能力。我们设置了随机玩家、基于DQN的强化学习玩家和LLM玩家(例如GPT-4、Gemini-pro)进行比较测试。此外,为了提高LLM的顺序决策能力,我们提出了TUTRI玩家,它可以让LLM根据游戏历史和游戏策略反思自己的行动。大量实验表明,与普通的LLM玩家相比,TUTRI玩家在顺序决策性能方面取得了显著突破。
  • 图表
  • 解决问题
    评估当前大型语言模型在顺序决策方面的能力,并提出改进方法
  • 关键思路
    使用基于UNO卡牌游戏的UNO Arena评估大型语言模型的顺序决策能力,并提出TUTRI玩家改进模型
  • 其它亮点
    使用Monte Carlo方法动态评估大型语言模型的表现,比较了随机玩家、DQN强化学习玩家和大型语言模型玩家的表现,提出了TUTRI玩家模型,取得了显著的表现提升
  • 相关研究
    最近的相关研究包括《Large-scale Language Model Parameter Estimation Using Distributed MCMC》、《Improving Language Understanding by Generative Pre-Training》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论