States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers

Ian Gemp,
Yoram Bachrach,
Marc Lanctot,
Roma Patel,
Vibhavari Dasagi,
Luke Marris,
Georgios Piliouras,
Siqi Liu,
Karl Tuyls
54
热度
NLP
AI
GameTh
2024年01月24日
  • 简介
    博弈论是研究理性主体之间战略互动的数学模型。语言是人类互动的重要媒介,但历史上一直难以将对话及其战略动机进行数学建模。将玩家、策略和语言互动相关的回报(即绑定到博弈论的传统符号逻辑)适当地建模,可以使现有的博弈论算法在语言空间中提供战略解决方案。换句话说,绑定可以提供一条路径,以计算对话中稳定、理性的会话策略。大型语言模型(LLM)已经达到了其生成能力可以实现自然对话类人模拟的程度。通过不同的方式提示它们,我们可以将它们的回应引导到不同的输出话语。利用自然语言的表现力,LLM还可以帮助我们快速生成基于真实应用场景的新对话场景。本文提出了一种可能的从对话到博弈论的绑定,以及现有均衡找寻算法在这种情况下的泛化。此外,通过利用LLM的生成能力和我们提出的绑定,我们可以合成一个大型的形式化定义的游戏仓库,其中可以研究和测试博弈论解决方案概念。我们还演示了如何将LLM驱动的游戏生成、博弈论求解器和模仿学习相结合,构建一个提高LLM战略能力的过程。
  • 图表
  • 解决问题
    将自然语言对话与博弈论相结合,探索计算稳定、理性对话策略的可能性。
  • 关键思路
    通过将自然语言生成模型与博弈论算法相结合,提出一种从对话到博弈论的绑定方式,并将其应用于生成一系列形式化定义的游戏,以研究和测试博弈论解决方案概念。
  • 其它亮点
    论文提出了一种将自然语言生成模型与博弈论算法相结合的新思路,用于计算稳定、理性对话策略。通过使用大型语言模型生成对话场景,并应用于博弈论算法中,可以生成一系列形式化定义的游戏,以研究和测试博弈论解决方案概念。实验结果表明,该方法可以有效提高自然语言生成模型的策略能力。
  • 相关研究
    近期的相关研究包括《Deep Reinforcement Learning for Dialogue Generation》和《Game-Theoretic Dialogue Modeling》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论