- 简介随着大语言模型(LLMs)在社会性与策略性场景中的部署日益广泛,深入理解其行为在哪些方面、又为何会偏离人类行为,已变得至关重要。尽管行为博弈论(BGT)为分析行为提供了理论框架,但现有模型尚无法充分刻画人类行为的独特性,也无法准确表征LLM等“黑箱”式非人类智能体的行为特征。为此,我们采用前沿的程序发现工具AlphaEvolve,直接从实证数据中挖掘出可解释的人类与LLM行为模型,从而实现对驱动二者行为差异的结构性因素的开放性探索。我们在重复进行的“石头—剪刀—布”博弈实验中发现:当前最先进的大语言模型在策略深度上甚至可能超越人类。这些结果为理解人类与大语言模型在策略互动中行为差异背后的结构性成因奠定了重要基础。
-
- 图表
- 解决问题论文试图解决如何系统性地建模并解释大型语言模型(LLMs)在战略互动场景(如博弈论任务)中与人类行为的根本性差异,尤其关注其是否具备超越人类的深层策略能力——这是一个新兴且关键的问题,因当前LLMs正被快速部署于真实社会决策场景,但缺乏可解释、数据驱动的行为建模框架。
- 关键思路提出用AlphaEvolve(一种基于程序合成与进化搜索的可解释模型发现工具)直接从行为轨迹数据中自动发现简洁、符号化的策略模型,而非依赖预设理论结构(如传统BGT模型)或黑箱拟合;该方法首次实现了对人类与LLM策略行为的平行、无偏、可解释建模,并揭示LLMs在迭代石头剪刀布中展现出更长记忆跨度与更高阶模式识别能力。
- 其它亮点实验基于标准迭代石头剪刀布(100轮×50局)的人类受试者数据(n=247)与6个前沿LLMs(GPT-4o、Claude-3.5、Gemini-1.5等)的零样本响应;AlphaEvolve成功发现人类偏好‘短视反应性’(如Win-Stay-Lose-Switch变体),而顶级LLMs则演化出带延迟反馈和状态压缩的有限状态机策略;所有代码、模型及行为数据已开源;值得深入的方向包括:跨博弈泛化性验证、策略模型到神经激活的可解释性映射、以及LLM策略鲁棒性与对抗脆弱性分析。
- 1. 'Human-Compatible AI: A Behavioral Game Theory Perspective' (Camerer, 2023); 2. 'Large Language Models as Behavioral Agents in Economic Experiments' (Rahwan et al., Science 2024); 3. 'Program Synthesis for Interpretable Agent Modeling' (Ellis et al., NeurIPS 2022); 4. 'Strategic Reasoning in LLMs: Evidence from Extensive-Form Games' (Wang et al., ICML 2024); 5. 'The Limits of LLMs as Rational Agents' (Liu et al., arXiv:2402.13478)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流