- 简介大型语言模型(LLMs)已越来越多地用于(交互式)决策制定,通过开发基于LLM的自主代理。尽管它们取得了新的成功,但LLM代理在决策制定方面的表现尚未通过定量指标进行全面调查,特别是在它们相互交互的多代理设置中,这是现实世界LLM代理应用的典型场景。为了更好地了解LLM代理在这些交互环境中的限制,我们建议通过\emph{后悔}的性能指标,在在线学习和博弈论的基准决策制定设置中研究它们的交互。我们首先在规范(非静态)在线学习问题中经验地研究LLMs的{无后悔}行为,以及当LLM代理通过玩重复游戏相互作用时均衡的出现。然后,我们在对生成数据的人类决策者的有理模型和监督预训练进行某些假设的情况下,提供了一些关于LLM代理无后悔行为的理论洞察力。值得注意的是,我们还确定了一些(简单)情况,在这些情况下,高级LLMs如GPT-4无法实现无后悔。为了促进无后悔行为,我们提出了一种新颖的\emph{无监督}训练损失-后悔损失,与监督预训练损失相比,它不需要(最优)动作的标签。然后,我们建立了后悔损失最小化的泛化界限的统计保证,随后是优化保证,即最小化这种损失可能自动导致已知的无后悔学习算法。我们进一步的实验证明了我们的后悔损失的有效性,特别是在解决上述“令人遗憾”的情况方面。
- 图表
- 解决问题该论文旨在探究大型语言模型(LLMs)在多智能体交互决策中的表现,并提出一种新的无遗憾学习算法,名为遗憾损失(regret-loss),以提高LLMs的表现。
- 关键思路论文提出了一种无遗憾学习算法,遗憾损失(regret-loss),以提高LLMs在多智能体交互决策中的表现。相比于当前的研究,该算法不需要标签信息,具有更好的普适性。
- 其它亮点该论文通过实验和理论分析,探究了LLMs在在线学习和博弈论中的表现,并提出了一种新的无遗憾学习算法。该算法不需要标签信息,具有更好的普适性。论文还提出了一种简单的情况,即高级LLMs(如GPT-4)无法做到无遗憾学习。论文提出的算法在实验中表现出色,值得进一步研究。
- 在最近的相关研究中,也有一些关注LLMs在多智能体交互决策中的表现。例如,论文《Multi-agent Cooperation and the Emergence of (Natural) Language》探究了LLMs在自然语言生成中的应用。
沙发等你来抢
去评论
评论
沙发等你来抢