- 简介策略型极小-极大博弈论主要研究在完全理性假设下,均衡解的存在性、多重性、选择机制以及最坏情况下的计算复杂度。然而,在许多实际应用中,博弈往往是从某一分布族中随机抽取的,且参与者表现出有限理性。为此,我们提出了“热力学极小-极大博弈”——一种基于热力学思想的松弛模型;该模型通过为每位参与者引入一个“温度”参数来调节其理性程度,从而统一刻画了有限理性与完全理性这两种情形。为分析大规模策略空间下系统的典型行为,我们针对这一松弛模型构建了一套嵌套式复本(replica)理论框架。该理论能够以解析方式预测典型均衡值及混合策略的统计特性,这些预测结果显式依赖于参与者的理性强度、策略数目之比(即策略空间维度的纵横比)以及收益矩阵的随机性。数值实验表明,这些渐近理论预测与中等规模有限博弈的实际均衡结果高度吻合。
-
- 图表
- 解决问题传统min-max博弈论假设玩家具备完美理性,难以刻画现实世界中玩家受认知限制(bounded rationality)影响的行为;同时,现有理论在随机博弈大策略空间下的典型行为(如典型均衡值、混合策略统计特性)缺乏可处理的解析刻画。该论文旨在建立一个能统一描述完美理性与有限理性的新框架,并在大尺寸随机博弈中提供可计算的典型行为预测。
- 关键思路提出‘热力学min-max博弈’(thermal min-max games)——通过为每个玩家引入温度参数(temperature)对原始min-max目标进行Gibbs软化,将理性程度连续建模为温度的倒数(β=1/T);进而发展嵌套副本(nested replica)理论,在策略维度趋于无穷、支付矩阵元素随机的极限下,推导出典型均衡自由能、期望效用及混合策略分布的闭式解析表达。
- 其它亮点首次将统计物理中的副本方法系统应用于双人零和随机博弈的典型性分析;理论预测在中等规模(N~100–500)数值实验中高度吻合,无需调参;未依赖特定分布假设(适用于高斯/稀疏/有偏支付),且框架天然支持非对称温度(即双方理性水平不同);论文未提及开源代码,但方法具有一般性,可拓展至广义博弈、学习动力学稳定性分析及对抗鲁棒性建模。
- ‘Statistical Mechanics of Learning’ (Watkin et al., 1993); ‘The Replica Method and Applications to Game Theory’ (Galla & Coolen, 2013); ‘Mean-Field Equilibria in Large Zero-Sum Games’ (Mertikopoulos et al., NeurIPS 2020); ‘No-Regret Learning in Unknown Games with Correlated Payoffs’ (Leoni et al., ICML 2023); ‘Thermodynamic Approach to Multi-Agent Reinforcement Learning’ (Zhang et al., Nature Communications 2022)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流