States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers

简介

博弈论是研究理性主体之间战略互动的数学模型。语言是人类互动的重要媒介，但历史上一直难以将对话及其战略动机进行数学建模。将玩家、策略和语言互动相关的回报（即绑定到博弈论的传统符号逻辑）适当地建模，可以使现有的博弈论算法在语言空间中提供战略解决方案。换句话说，绑定可以提供一条路径，以计算对话中稳定、理性的会话策略。大型语言模型（LLM）已经达到了其生成能力可以实现自然对话类人模拟的程度。通过不同的方式提示它们，我们可以将它们的回应引导到不同的输出话语。利用自然语言的表现力，LLM还可以帮助我们快速生成基于真实应用场景的新对话场景。本文提出了一种可能的从对话到博弈论的绑定，以及现有均衡找寻算法在这种情况下的泛化。此外，通过利用LLM的生成能力和我们提出的绑定，我们可以合成一个大型的形式化定义的游戏仓库，其中可以研究和测试博弈论解决方案概念。我们还演示了如何将LLM驱动的游戏生成、博弈论求解器和模仿学习相结合，构建一个提高LLM战略能力的过程。
图表
解决问题

将自然语言对话与博弈论相结合，探索计算稳定、理性对话策略的可能性。
关键思路

通过将自然语言生成模型与博弈论算法相结合，提出一种从对话到博弈论的绑定方式，并将其应用于生成一系列形式化定义的游戏，以研究和测试博弈论解决方案概念。
其它亮点

论文提出了一种将自然语言生成模型与博弈论算法相结合的新思路，用于计算稳定、理性对话策略。通过使用大型语言模型生成对话场景，并应用于博弈论算法中，可以生成一系列形式化定义的游戏，以研究和测试博弈论解决方案概念。实验结果表明，该方法可以有效提高自然语言生成模型的策略能力。
相关研究

近期的相关研究包括《Deep Reinforcement Learning for Dialogue Generation》和《Game-Theoretic Dialogue Modeling》等。

States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers

评论