- 简介大型语言模型(LLMs)越来越多地被用于(交互式)决策制定,通过开发基于LLM的自主代理程序。尽管它们取得了不断增长的成功,但LLM代理在决策制定中的表现尚未通过定量指标得到充分调查,特别是在它们相互交互的多代理设置中,这是现实世界LLM代理应用的典型情况。为了更好地了解LLM代理在这些交互环境中的限制,我们建议通过\emph{遗憾}的表现度量,研究它们在在线学习和博弈论中的基准决策制定设置中的相互作用。我们首先在经典(非稳态)在线学习问题中实证研究LLMs的无遗憾行为,以及LLM代理通过玩重复游戏相互作用时均衡的出现。然后,我们在对人类决策者生成数据的有理模型和监督预训练作出一定假设的情况下,提供了关于LLM代理无遗憾行为的一些理论见解。值得注意的是,我们还确定了高级LLMs(如GPT-4)失败的(简单)情况。为了促进无遗憾行为,我们提出了一种新颖的\emph{无监督}训练损失\emph{遗憾损失},与监督预训练损失相比,它不需要(最优)动作的标签。然后,我们建立了遗憾损失最小化的泛化界限的统计保证,随后是最小化这种损失可能自动导致已知的无遗憾学习算法的优化保证。我们进一步的实验证明了我们的遗憾损失的有效性,特别是在解决上述“令人遗憾”的情况方面。
- 图表
- 解决问题研究基于大型语言模型的自主代理在决策制定中的表现,尤其是在多代理交互场景下的表现,并提出量化指标——遗憾(regret)来评估表现
- 关键思路通过在在线学习和博弈论中的基准决策制定场景中研究LLM代理的交互表现,提出无遗憾行为和均衡的概念,并提出一种新的无监督训练损失——遗憾损失,以提高LLM代理的表现
- 其它亮点提出遗憾损失的概念并证明其有效性,实验结果表明遗憾损失能够有效提高LLM代理的表现,论文还提出了一些LLM代理表现不佳的情况并对其进行了分析
- 近期相关研究包括《Language Models Are Few-Shot Learners》、《GPT Understands, Too》等
沙发等你来抢
去评论
评论
沙发等你来抢