DRUGAI

策略性决策是人类互动中的核心组成部分。为深入理解这一过程,研究人员在两人矩阵博弈的背景下开展了一项大规模研究,共收集了9万余条人类决策数据,涵盖2400多个程序化生成的博弈任务,其结构空间远超以往数据集。


研究人员发现,相较于现有的策略行为理论,一个在该数据上训练的深度神经网络模型能够更准确地预测人类选择,揭示了传统模型未能捕捉的系统性差异。基于该神经网络,研究人员进一步构建了一个可解释的行为模型,揭示出关键认知规律:个体对对手行动的推理能力和对最佳策略的响应能力均高度依赖博弈情境,尤其受博弈矩阵复杂度的影响。


本研究展示了机器学习在揭示人类复杂行为模式中的潜力,不仅能提升预测精度,更有助于发展新的理论框架。

经典的策略决策模型——纳什均衡(Nash equilibrium)——建立在两个关键假设之上:一是参与者对对手策略的信念具有一致性,二是参与者能基于该信念做出理性响应。然而,尽管纳什均衡广泛用于分析矩阵博弈,但已有研究表明人类玩家在实践中经常偏离这两个假设。因此,纳什均衡在解释真实人类策略行为方面的有效性受到限制。


为应对这一问题,行为博弈论(Behavioural Game Theory)发展出一系列扩展与修正模型,以更贴近人类的实际选择。然而,这些行为模型的评估大多依赖于样本有限、游戏类型单一的数据集,即便将多个研究合并使用,依然难以覆盖策略行为的广泛类型。


例如,即使是看似“简单”的策略博弈,其对个体认知负荷的要求也可能存在巨大差异。但目前对于博弈复杂性如何影响行为的理解仍相当有限。


为系统探索这些问题,研究人员开展了一项大规模实验,密集采样了二维博弈结构空间(即2×2矩阵博弈)。基于所得数据集,研究人员评估主流行为模型的解释力,并将其预测性能与神经网络模型进行了对比。借助该策略,研究人员识别出现有模型未能捕捉的系统性行为差异,进一步构建出一个几乎可与神经网络相媲美的可解释结构化模型。


在实验设计上,研究人员基于Robinson–Goforth博弈拓扑框架程序化生成了2416个二维博弈任务,并确保每类博弈至少包含一个纯策略纳什均衡。通过线上平台招募了4900名参与者,每人参与20个不同游戏,总共收集了93,460条人类决策数据。


参与者未收到即时反馈,确保行为可解释为初始博弈策略。该数据集被用于训练和评估多种行为决策模型,包括经典模型与新构建的深度学习模型。


研究人员关注于行为博弈论中的三个关键认知要素:

  • 有限策略理性:即个体只进行有限层级的“对手思维”,如level-k模型。

  • 决策噪声:个体在选择中存在随机性,并会考虑他人行为的不确定性(如Quantal Response模型)。

  • 风险厌恶:人类倾向于选择风险更低的选项。

所有评估模型均是一个基础行为模型(即“风险厌恶的level-k + QR模型”)的变体。该模型假设个体对对手行为有一定信念,并基于这些信念选择最佳响应;但这一过程存在噪声,并受到风险态度的影响。


虽然深度神经网络(MLP)模型在预测准确性上表现出色,但其“黑箱”特性限制了人类行为解释的透明度。为弥补这一差距,研究人员尝试将神经网络与结构行为模型相融合——将传统模型中的参数(如理性层级、噪声、对他人信念)替换为神经网络输出,从而实现对博弈情境的上下文感知建模。


例如,研究人员构建了“神经QR模型”,允许玩家的决策噪声 η 由游戏矩阵的特征决定。此外,也引入了对“他人噪声”的建模(η_other),以及混合多个理性层级的“神经level-k模型”。


最终结果表明,这些上下文相关(context-dependent)模型在解释人类行为变异性方面显著优于传统上下文无关模型,且可达到与深度学习模型接近的预测精度。


结果

深度学习模型优于传统行为模型预测人类策略选择

为量化各模型在预测人类行为中的表现,研究人员将它们与两个极端基准模型进行比较:

  • 下界模型:完全随机模型,即每种策略被均匀选择。

  • 上界模型:多层感知机(MLP)神经网络,直接以博弈矩阵为输入,输出为人类实际选择概率。


研究人员采用“完整度(completeness)”指标评估行为模型的表现,该指标衡量行为模型相比随机模型所取得的提升,在多大程度上接近MLP模型的预测性能。例如,完整度为50%表示该模型实现了MLP模型改进幅度的一半。


实验结果表明:

  • 经典纳什均衡模型的完整度仅为22%,说明其对人类行为的解释能力有限。

  • 融合“一级理性思维(level-1)+ QR噪声 + 风险厌恶”的行为模型能达到82%的完整度,显著优于其他传统模型。

  • 然而,即便是最佳的传统行为模型,与MLP神经网络仍存在明显预测精度差距。


研究人员据此推断:要进一步缩小差距,必须突破传统行为模型“上下文无关”的结构性限制。


上下文相关建模显著提升模型完整度

行为博弈模型通常假设其结构参数(如理性水平k、噪声η)在所有博弈中保持不变。然而,人类行为往往受博弈情境影响较大——不同博弈矩阵具有不同的认知复杂性,会显著改变个体的推理水平与反应策略。


为此,研究人员将结构模型参数以神经网络方式建模,使其对博弈上下文敏感,形成“上下文相关结构模型”。他们关注三个关键行为参数:

  • 理性层级 k:表示个体进行“我认为你会怎么想”的推理层级。

  • 自身决策噪声 η_self:表示个体在响应中的不确定性。

  • 对他人行为的信念噪声 η_other:表示个体对对手不确定性的主观估计。

研究人员将这些参数的生成过程替换为由神经网络对博弈矩阵的响应函数,从而构建了:

  • level-k 神经QR模型:η_self由神经网络预测。

  • 神经QR+belief噪声模型:η_self 与 η_other均由神经网络预测。

  • 神经level-k混合模型:k值由神经网络预测为一个分布,允许不同理性层级混合。

实验结果表明:

  • 将这三个参数全部交由神经网络建模后,模型完整度达到97%,几乎等同于MLP模型的性能;

  • 次佳模型固定k=2,但允许η_self与η_other由神经网络控制,其完整度也达到了96%;

  • 表明游戏特定的“噪声”建模对预测性能的提升最为关键。

研究人员进一步发现:个体自身决策中的噪声(η_self)对行为变化的解释力高于其对他人行为不确定性的估计(η_other),即人们更容易在某些博弈中搞清楚“自己该怎么做”,而不是“别人会怎么做”。

讨论

借助大规模实验与机器学习工具,研究人员对人类策略决策背后的认知机制展开了系统探索。研究结果表明:

  • 个体自身在响应对手行为时的决策噪声(η_self),以及对他人行为不确定性的信念(η_other),共同决定了人类行为偏离理性纳什均衡的程度;

  • 当允许这些参数在不同博弈中发生变化(即引入“上下文依赖性”)时,模型的预测准确性显著提升;

  • 为理解这些上下文变化背后的原因,研究人员提出并验证了一个新的结构性指标——博弈复杂度指数(complexity index)。

该复杂度指数基于博弈矩阵的客观特征构建,具有明确解释力和高度可迁移性。研究人员通过一个独立实验验证了该指数能有效预测:

  • 决策反应时间

  • 主观认知不确定性

  • 策略选择对效用差值的敏感度

这些证据表明,复杂度指数不仅反映了游戏结构的客观难度,也切实反映了人类的行为反应机制。


尽管研究取得了重要进展,仍需注意以下几点局限:

  • 真实世界的策略互动更复杂

实验所用的2×2博弈矩阵仅是现实战略互动的极简化版本。真实环境中,参与者可能面临更模糊的动机、更复杂的规则与不确定性。

  • 游戏矩阵无法囊括全部策略认知要素

尽管研究人员开发了一个结构化的复杂度衡量方法,但人类决策还可能受到语言、视觉、历史经验等多模态因素影响,这些超出矩阵本身的因素也应纳入未来研究。


  • 深度神经网络虽准确但难以解释

研究人员显示纯神经网络模型在预测上性能最优,但“黑箱”特性限制了其作为理论工具的价值。因此,本研究特别关注将神经网络与可解释行为模型结合,以平衡预测力与理论洞察。

整理 | WJM

参考资料

Zhu, JQ., Peterson, J.C., Enke, B. et al. Capturing the complexity of human strategic decision-making with machine learning. Nat Hum Behav (2025). 

https://doi.org/10.1038/s41562-025-02230-5

内容中包含的图片若涉及版权问题,请及时与我们联系删除