大语言模型在 False Belief 测试题上刷出高分的同时，Ullman 等人做了一个简单到令人尴尬的实验——只要对经典 ToM 任务做微不足道的改写，所有大模型立刻崩盘。Strachan et al. 在 Nature Human Behaviour上的系统性电池测试也得出类似的怀疑论结论。

这引出一个更深层的问题：过去十几年里，大家造了一堆可以"过 ToM 测试"的系统，却从未严格定义过"机器心智理论（Machine Theory of Mind, MToM）"到底是什么。

本文的核心价值就在于此：它是世界上第一篇对 MToM 给出严格形式化定义、提炼证据支持的 Principles、并用一个 holistic meta-model 把整个领域"拔高一层"的工作。

对于做 AI+认知科学交叉、图神经网络、不确定性量化、多智能体 RL 的读者来说，这篇文章提供的不是某个新模块，而是一张概念坐标系——让你看清自己那块拼图在整个版图上的位置。

论文：A formal definition and meta-model for a machine theory of mind

单位：牛津

发布日期：2026

下载论文：https://t.zsxq.com/fBEZ2

请索引第101篇论文

为什么「机器心智理论」至今没有正式定义？牛津这篇工作首次把它写成了数学，并提出了一个统领性元模型

01 心智理论的三个经典流派（及为什么机器版不能只挑一边站）

1.1 认知心理学给我们的三条线索

流派	核心主张	对 MToM 的启示
Theory-Theory (TT)	人对他人的理解靠的是一套"理论"（命题式知识结构），儿童像小科学家一样提假设、验证据	机器需要知识库 + 假设生成/检验 + 符号/神经符号推理；但存储无穷多理论认知代价爆炸
Simulation-Theory (ST)	人通过把自己的推理系统"代入"他人来推其心理状态（"我要是他，会怎样想？"）	机器可用自身决策/规划引擎模拟他人；依赖"他人与我足够相似"的先验
Modular Theories	ToM 由脑中专门模块负责（进化产物），mPFC / TPJ / STS 等构成功能网络	暗示 MToM 架构应是有功能子模块组装而非单一端到端黑箱

作者给出的立场非常明确：你需要一个 hybrid，两者缺一不可（Principle 4）。纯 ST 在没有足够锚定信息时不知道该"设成谁"；纯 TT 在没有交互证据时理论空间爆炸。人类自己就是又模拟又建理论的。

1.2 神经科学的现状：有用，但尚未 ready-to-implement

论文坦率指出：神经科学目前还不足以直接指导 MToM 架构设计（mirror neuron 假说热度退潮后，现在更多认为是 mPFC+TPJ+STS 等组成的分布式网络）。但它提供的两点非常关键：

组装式（assemblage）证据：人脑似乎不是用一个"ToM模块"硬开关，而是用基础构建块动态组装来处理不同社会情境——这对我们设计可重组的仿真架构（Neural Module Search 思路）是直接启发。
自我模拟是起点：mPFC 活动在 self vs. other 区分中扮演关键角色——形式上意味着你的先验可以用 sim(self) 做初始化。

02 八大 Principles：从证据到约束条件

这是全文最"值钱"的部分——作者从认知心理+神经科学+AI 三条线索，推导出 MToM 必须满足的 8 条原则（不是拍脑袋 axioms，而是 literature-backed）：

	Principle	认知/实证来源	对 AI 模型的打击点
P1	ToM 是终身持续学习过程，随经验迭代更新	儿童 ToM 3–4 岁才出现，需多年多情境交互	一次性训练/静态 benchmark 是根本性错配
P2	无证据时，用自身思维过程模拟他人（自我模拟 kick-start）	"child applies their own reasoning to others"；COMMON-TOM 基准也围绕 common ground	纯从零数据学他人 ≠ 人类的 bootstrap 机制
P3	应从观察 + 交互两条通道学习（非仅其一）	人看电影/读故事也能学；RL 反馈循环也能学	把 MToM 缩减成纯 SL 或纯 RL 都是削足适履
P4	Hybrid：ST（模拟）+ TT（假设生成/检验）共存	模糊情境下人既代入又提问验证	纯端到端黑箱或纯符号都偏科
P5	须含主动学习：为消解歧义去获取新证据	你会问朋友"你是不是烦了?"来验假设	当前所有静态 ToM benchmark 完全忽略这条
P6	须处理高阶递归 ToM（"我认为你认为我认为…"）	谈判/博弈/有限信息竞价中高阶 ToM 有可测优势	大多数方法止步一阶 belief tracking
P7	ToM 是多任务：意图、信念、情绪、解释、预测……输出是 manifold insights，非单一 label	同一场景不同目标要不同输出	把 ToM 降维成"猜下一个动作"丢掉了半壁江山
P8	过程是本质不确定的——他人心智不可直接观测，不确定性是 epistemic 型的	行为→心智是 ill-posed inverse problem	点预测不够；需要 credal sets / random sets / second-order uncertainty

交叉学科读者的一个关键takeaway：P1+P8 合在一起告诉你——MToM 的本质不是一个分类器或一个 predictor，而是一个在持续演化、永远 under-determined 的推理过程。这意味着它的数学形态更像 online Bayesian updating / conformal prediction / credal-set reasoning 而非 standard supervised learning。

03 把"理解他人心智"写成映射

这是本文最硬核的贡献。作者定义了：

Definition 1（MToM 核心映射）：一个 Observer ω 观察 agent a 处于环境 e 中。

其中每个 model本身又是一个映射：

即：环境描述 → 关于 agent a 的一组 insights （意图、最可能决策、情绪状态、信念……）。

加上时间维度（P1 持续更新）

更新发生在离散时刻（异步），被观测序列和交互奖励驱动。

Definition 2（更优雅的分离写法）把"agent 类"和"环境"解耦：

你可以把 理解为 Observer 脑子里的 "心智模型构建器"，输入看到的人（类）和情境流，输出一个 针对该 agent/agent-class 的 executable model，这个 model 吃进当前场景，吐出你想要的任意 insight（belief / intention / emotion / explanation / next action distribution …）。

这个形式的美妙之处在于它的包容性——IRL 框架、Bayesian ToM、BDI 逻辑模型、GNN 消息传递图、甚至（scaffolded）LLM agent 都可以被视作这个的特例实现。它提供的是接口层定义，不是某个具体算法。

04 Holistic Meta-Model

4.1 整体架构（核心图）

Figure 1：MToM 元模型全图。Observer（≠纯 ToM模块）在动态环境中同时观察+行动，Hybrid Model 产出对他人的 insights，不确定性贯穿感知→模拟→假设检验→insight 每一环，预测质量反馈驱动模型演化。

ToM 不是独立子系统，而是 Observer agent 整体目标集合的一部分。Observer 有自己的 goals（大多 ToM-irrelevant），其中一部分是 ToM-related goals——这两者共同决定交互行为，而交互产生的数据反过来更新你的 ToM 模型。

4.2 四大组件拆解

① 仿真侧（Simulation / ST 侧）

用 self-simulation 初始化（P2）：你对陌生 agent 的第一近似 = "若我是他…"
随证据积累，从 agent class-level（刻板印象/原型 sim）细化到 individual-level
仿真架构本身不是给定死的，而是通过 Continual NAS / Neural Module Search 让结构随任务演化

作者的推荐非常具体：

Continual Neural Architecture Search — made cheaper by module-based constraints (NMS: freeze base modules, re-wire) — is the best-suited mechanism.

这对 图科学/图学习 读者是个暗线提示：如果把 mental state 建模成 graph of states（），那么"模块重组"天然对应 子图提取 + message passing 结构调整，就是一个 dynamic graph NN 的架构搜索问题。

② 理论侧（Theory / TT 侧）：假设生成 + 主动探询

TT 在这里不做拟人玄学，而是工程化为两种等价形态：

假设检验型：formulate hypotheses → design action to disambiguate → update（经典 active learning loop）
目标函数型：把"减少 insight 的不确定性"或"提升 sim 保真度"写成 reward/objective，塞进 Observer 的多目标优化里

论文还抛出一个非常前沿的方向：用 epistemic generative models（epistemic GAN / VAE / diffusion）来生成消解歧义所需的 counterfactual 观测——这在当前的 MToM 文献里几乎没人碰。

③ 多目标 Agent Goal Optimisation 学习框架

其中 ToM-related objectives 至少可分四类：

Objective	形式	作用
ToM-SL	— 预测误差	用可观测行为监督 insight 质量
ToM-RL	— 累积奖励	通过与 agent 交互的效果反推心智模型好不好
ToM-TT	假设真伪统计检验置信度	驱动 TT 侧的假设筛选
ToM-U	— uncertainty reduction	主动压低 epistemic uncertainty

而且 goal set 本身随时间演化（Figure 2 的 Evolving AI 理念）——你意识到需要搞清某个 agent 的某个维度，本质上就是新 goal 的涌现。

Figure 2：Observer goals 的动态演化——新目标可以从探索目标空间的过程中涌现，而不仅是手写的。

④ 不确定性建模（贯穿所有组件）

这是论文花最大篇幅强调的"欠账"：

观测噪声（视觉检测失败、语言歧义）
环境非平稳（场景动态本身不确定）
人类行为的内在丰富性（同一 mental state → 多种 exteriorization）
simulation 内部结构的不确定（图结构的边权、节点含义、层级关系）
insight 自身附 uncertainty（你输出的"他认为…"应带置信/第二阶不确定）

作者特别点名 credal sets / random-set representations 作为比普通 Bayesian / ensemble 更有前途的路线（更紧的泛化界、更好的 OOD detection、天然二阶 epistemic 表达），并指出它们在 ToM 中尚未被用过——这是一个 open gold mine。

05 现有方向差在哪？

5.1 逐条审判

Principle	IRL / MARL 系	Bayesian ToM	BDI / 认知架构	LLM (scaffolded)	生物启发
P1 持续	✅ 天然时序	⚠️ 多数静态	⚠️ 学习≠持续	⚠️ 上下文窗口≠终身	⚠️ 有learn但未连续
P2 自我模拟	❌ 纯外部	⚠️ 潜力在但未见paper	✅ self-model → other	⚠️ self-cognition刚起步	✅ STS等通路
P3 观察交互	✅ RL交互侧强，观察偏弱	✅ obs更新，action缺	❌ 不关心env交互	⚠️ agentic时有交互	❌ 只管仿脑不管交互
P4 ST+TT	❌ 纯TT味	❌ 纯probabilistic TT	部分 BDI+规则	❌ 纯隐式	提法有但很少真融合
P5 主动学习	⚠️ 有IRL但不成体系	⚠️ 信息增益未主流	❌	❌	❌
P6 高阶	⚠️ IPOMDP可扩但贵	⚠️ 可嵌套但脆	❌	⚠️ prompt递归但黑箱	❌
P7 多任务	常限reward inference	belief/desire可扩	✅ 多attitude	✅ 表面多task	单视角
P8 不确定	⚠️ 部分	✅ 核心优势	⚠️ 逻辑≠uncertainty calib.	❌ 点估计为主	⚠️

Principle

IRL / MARL 系

Bayesian ToM

BDI / 认知架构

LLM (scaffolded)

生物启发

持续

✅

天然时序

⚠️

多数静态

⚠️

学习≠持续

⚠️

上下文窗口≠终身

⚠️

有learn但未连续

自我模拟

❌

纯外部

⚠️

潜力在但未见paper

✅

self-model → other

⚠️

self-cognition刚起步

✅

STS等通路

观察交互

✅

RL交互侧强，观察偏弱

✅ obs更新，action缺

❌

不关心env交互

⚠️

agentic时有交互

❌

只管仿脑不管交互

ST+TT

❌

纯TT味

❌ 纯probabilistic TT

部分 BDI+规则

❌

纯隐式

提法有但很少真融合

主动学习

⚠️

有IRL但不成体系

⚠️ 信息增益未主流

❌

高阶

⚠️

IPOMDP可扩但贵

⚠️ 可嵌套但脆

❌

⚠️

prompt递归但黑箱

❌

多任务

常限reward inference

belief/desire可扩

✅

多attitude

✅

表面多task

单视角

不确定

⚠️ 部分

✅ 核心优势

⚠️ 逻辑≠uncertainty calib.

❌ 点估计为主

⚠️

一句话总结：没有任何现有 strand 全满足；最接近的是 Bayesian ToM × continual RL，但它在 P2（自我模拟初始化）和 P5（结构化主动探询）上是明显短板。

5.2 Benchmark 生态的系统性缺陷

论文对现有 benchmark 做了大规模普查（Table 1 汇总了 30+ 数据集/框架），然后掷出一个尖锐判断：

"Overall, as all of these are static benchmarks, none satisfies Principle 5 (active learning), nor Principle 1 (continual update). Uncertainty quantification (P8) is widely ignored. Higher-order (P6) only in Hi-ToM. P2 and P4 are invisible to data format."

下面把论文的 Table 1 整理成更易读的版本供参考：

Benchmark / Dataset	模态	数据形态	核心任务	年份
FANToM	文本	10K queries / 256对话	6类交互ToM压力测试	'23
OpenToM	文本	696叙事 (GPT生成)	location/attitude/belief 多跳	'24
ToMBench	文本	2,860样本 / 双语	8task×31ability	'24
Hi-ToM	文本	–	高阶递归ToM (deception)	'23
MMToM-QA	视频+文	134视频/600query	true/false belief, belief tracking, goal inference	'24
EgoToM	视频	7k 5-min clips (Ego4D派生)	第一人称ToM QA	'25
MovieGraph-ToM	视频+文	30电影/65.6k query	长程社会因果图推理	'26
MOMENTS	视频	2.3k MCQ (SF20K)	7类ToM类别	'25
SoMiToM	视频+文	35第三视角视频+363第一视角图	具身社交多视角	'25
MuMa-ToM	视频+文	18参与者/90问	多智能体具身mental reasoning	'25
MindCraft	虚拟世界+文	100局Minecraft协作	共建任务/互belief追踪	'21
ToM-SSI	网格世界	6,000问/5task	群体交互/空间+社交	'25
COKE	KG	45k+认知链	situation→thought→action→emotion	'24
DynToM	文本	1,100context/78.1k问	时态演化的心智状态追踪	'25
CogToM	文本(双语)	8,000实例/46范式	36tasks跨7心智范畴	'26

如果你在做视觉/具身方向，看 MuMa-ToM / EgoToM / ToM-SSI；如果你在做时态动态，DynToM 是目前唯一认真建模 mental state 时间演化的；如果你在做语言agent，FANToM 和 ToMBench 的覆盖面更严。但请记住：没有一个现有benchmark测P1（持续学）和P5（主动交互探询）——这两个维度只能自己设计闭环环境（PsychSim / Mujoco social / 自定义grid world）。

06 给你的研究启示

作者对未来的推演翻译成更"可执行"的研究建议，按受众分组：

如果你做图学习 / 网络科学 + AI

把 mental state 表示成 dynamic heterogeneous graph（entity states → nodes；causal/temporal/belief edges → edge types），用 GNN message passing 做 belief propagation，但关键是把 graph topology本身做成 learnable（architecture search over graph structures）
考虑 credal-set / random-set 版本的 GNN（论文 references: Tolloso & Bacciu "Credal GNN", Woodley et al. "Random-Set GNN"）——把 epistemic uncertainty 织入消息传递而非事后calibration

如果你做多智能体 / MARL

把 opponent modeling 从 "learn a policy net" 升级为 P1+P3+P5 框架：你的 opponent model 要持续更新（continual），且要主动设计交互动作来降低对其 intent 的 entropy
高阶 ToM（P6）别只当game-theory练习题——IPOMDP框架 + 可扩展近似推断（particle filters / amortized inference）是现实路径

如果你做 LLM + ToM

承认一个残酷事实：论文的结论是LLM的ToM能力skeptically viewed——LLM在ToM任务上的高分很多是 pattern matching over textual schema, not genuine simulation of minds
最有价值的LLM×ToM路线不是"刷榜"，而是 scaffold LLM 为 hybrid meta-model 的组件：用LLM做 natural language ↔ structured belief 的接口层（LaBToM方向），但把核心 belief update / uncertainty 交给符号+概率引擎
自我认知（self-cognition）→ 自我模拟（P2）这条路值得认真做，而不是只加prompt

如果你做不确定性/可信AI

MToM 是 epistemic uncertainty 的天然高强度试验场（因为 ground truth mental state 原则上不可直接观测）
把 conformal prediction / credal sets / second-order uncertainty 引入 belief tracking，把它做成 certifiable 的输出（不只是"他要去左边"，而是"我对这个判断的 epistemic confidence = X，需要再探询吗？"）——这直接连到 safety-critical 应用（自动驾驶预测行人意图、人机协作信任校准）

07 结语

有人可能会说："不就是写了个映射吗？" 但这个看似简单的动作解决的是领域内真正的结构性缺失。

没有形式化定义 → 没有共识度量 → 每个方法选自己的tech然后宣称做ToM → 领域碎片化 → 无法累积进步

Cuzzolin 做的事相当于给一个长期靠直觉推进的交叉领域立了地基：八大原则是从三条学科的实证文献里归纳出来的（不是a priori哲学偏好），形式化定义给出了接口，元模型给出了装配蓝图，benchmark census 标出了荒地。

对读者而言，最有嚼头的部分在于：ToM 的 search space 天然是结构性的（层级 mental-state DAG / factor graph / causal graph / BDI 逻辑图），这意味着图神经网络、结构学习、神经符号图推理不仅"能用"，而是在MToM的形式定义中就站在舞台中央。

微信群

内容中包含的图片若涉及版权问题，请及时与我们联系删除

论文 | arXiv 2026 | 机器心智理论（Machine Theory of Mind）