报告主题:如何创建理性的基于LLM的智能体?博弈论工作流

报告日期:11月27日(周三)10:30-11:30

报告要点:

完全信息博弈这些是经典博弈,例如囚徒困境。我们选择了5个同时博弈和5个顺序博弈进行研究。研究发现,除了o1以外,其余LLM普遍缺乏计算纳什均衡的强大能力,也就是说,它们的理性水平较低。此外,它们对噪声、扰动或随机对话缺乏鲁棒性。因此,基于经典博弈论方法(例如逐步消除占优策略和逆向归纳法),我们设计了两个工作流,帮助大模型在推理过程中逐步计算纳什均衡。

不完全信息博弈我们使用了经典的“Deal or No Deal”资源分配博弈,该博弈具有私人估值,智能体无法知道对方对资源的估值。在这种情况下,博弈论并未提供明确的解决方案,以往研究主要依赖强化学习。

研究表明,Sonnet和o1在谈判成功率和结果上表现优于人类,而Opus和4o则明显落后。我们设计了一种基于理性行为体假设的算法工作流,使智能体能够根据对方对不同资源分配方案的反应推测其估值。这一工作流非常高效,能在5轮对话内将可能的估值范围从最初的1000个缩减到2-3个,并且始终包含对方的真实估值。基于对对方资源估值的推测,我们在每一步指导智能体计算并提出一个分配方案,该方案既能最大化自身利益,又具有非零概率满足无嫉妒条件,从而确保双方都相对满意,谈判得以继续。

意外发现有趣的是,如果在谈判中只有一个智能体使用这种工作流,它会被对方利用。尽管工作流提升了整体谈判结果,也为个体智能体带来了更多利益,但这些利益始终低于对手。

未来方向未来,我们需要设计一种元策略来选择使用何种工作流!

报告嘉宾:

华文越,加州大学圣芭芭拉分校博士后。罗格斯大学博士毕业,师从张永锋老师。她现在主要与William Wang合作,主要研究方向为llm reasoning和llm-based agent,在NLP和ML的顶会ACL EMNLP ICLR Neurips TACL等发表多篇论文。

扫码报名


更多热门报告

内容中包含的图片若涉及版权问题,请及时与我们联系删除