- 简介目前,学界已围绕大语言模型(LLMs)及其驱动的智能体式工作流(agentic workflows)开展了大量研究。然而,该领域中诸多研究或声称、或归因、或直接预设这些模型具备某种普适性的拟人化属性(例如道德判断能力或对自然语言的“理解”)。我们的目的并非论证此类属性究竟存在与否,而是指出:这些结论本身可能就是错误的。为此,我们构建并训练了一个结构简单的神经网络,使其在电子游戏《帝国时代II》(Age of Empires II)中运行;我们进一步指出,任何足够强大的底层载体(substrate)——无论是乐高积木系统,还是美国大波士顿地区——只要被赋予适当的功能组织,同样可能呈现出上述所谓拟人化属性。因此,大语言模型所宣称的那些拟人化属性,在经验层面上并不具有唯一性:尽管某些可观测特性(例如对提示词的响应行为)可能保持稳定,但另一些特性——尤其是对其行为表征的解释方式——却会随底层载体的不同而发生改变。正因如此,任何立足于实证的研究讨论,都必须明确界定可操作、可测量的判定标准;否则,相关解读将完全取决于研究者所采用的表征框架,而非客观事实本身。接着,我们证明:若脱离具体载体、以泛化方式预先假设某系统“具备”或“不具备”这些拟人化属性,则无论研究者持何种立场,所得出的结论要么陷入循环论证,要么毫无信息量。最后,我们提出一种“零假设”(null assumption)方法论:即在实验设计之初,不预设大语言模型具有拟人化属性,而转而默认其行为表现并不具有本体论上的唯一性;文中还辅以若干具体实例予以说明。此外,我们简要回应了针对本研究可能提出的若干质疑,概览了相关领域的研究现状,并严格证明了《帝国时代II》在功能上与图灵机等价(即具有功能完备性与图灵完备性)。
-
- 解决问题论文旨在质疑当前LLM研究中普遍存在的、未经实证检验的 anthropomorphic 归因(如‘理解’‘morality’),指出这类归因缺乏 substrate-invariant empirical criteria,本质上是解释性而非现象性的;问题并非新(属哲学与AI基础问题),但其在LLM时代被系统性忽视且亟待方法论澄清。
- 关键思路提出‘substrate non-uniqueness’核心论点:若简单神经网络在Age of Empires II中可被描述为 exhibiting ‘goal-directedness’或‘reasoning’,则同种归因逻辑可荒谬地延伸至LEGO或大波士顿地区——从而证明所谓‘anthropomorphic attributes’并非LLM特有,而是观察者对行为的解释依赖于表征框架;进而主张以‘null assumption of non-uniqueness’替代默认拟人化假设,强制要求显式、可操作的测量标准。
- 其它亮点1) 形式化证明Age of Empires II是Turing-complete(通过构造通用图灵机模拟器);2) 构建并训练轻量级神经网络在AoEII中完成资源调度/attack决策任务,展示‘类智能行为’可在非-LLM、非-language substrate中涌现;3) 提出方法论原则:任何关于LLM属性的实证主张必须绑定具体测量协议(如‘understanding’需定义为跨-linguistic paraphrase robustness + counterfactual intervention test);4) 无开源代码(因属概念验证),但实验设计完全可复现;5) 值得深入:如何形式化‘measurement criteria’的最小完备集?如何将该框架应用于RLHF评估或幻觉检测?
- ‘The Measure of Intelligence’ (Legg & Hutter, 2007); ‘On the Dangers of Stochastic Parrots’ (Bender et al., 2021); ‘Language Models are Few-Shot Learners’ (Brown et al., 2020); ‘Can Large Language Models Reason?’ (Zhou et al., 2023); ‘The Myth of Understanding in LLMs’ (Weinberg, 2022); ‘Substrate Independence and AI Safety’ (Yudkowsky, 2011)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流