关键词:大语言模型,世界模型,空间神经元,时间神经元



论文题目:
Language Models Represent Space and Time
论文地址:
https://arxiv.org/abs/2310.02207

尽管现代大语言模型只是被训练来预测下一个标识(token),但它已经展示出一系列令人印象深刻的能力,这引发了人们对这些模型实际学到了什么的质疑和担忧。一种假设是,大语言模型学习了大量的相关性,但是在只进行文本训练的情况下,缺乏连贯的模型(coherent model)或对背后的(underlying)数据生成过程的“理解”。另一种假设是,大语言模型在压缩数据的过程中,学习了训练数据背后的生成过程的更紧凑、连贯和可解释的模型,即世界模型。

图1:Llama-2-70b的空间和时间世界模型。

在这项工作中,作者试图回答大语言模型是否形成了世界(和时间)模型的问题——他们试图提取一张真实的世界地图!作者通过分析Llama-2模型家族中三个空间数据集(世界、美国、纽约市)和三个时间数据集(过去3000年历史人物的死亡年份、20世纪50年代以后艺术和娱乐的发布日期、2010年至2020年新闻头条的发布日期)的学习表示,找到了上述第二个假设的证据。作者发现,大语言模型学到了横跨多个时空尺度的空间和时间的线性表示。这些表示对提示的变化是鲁棒的,并且在不同实体类型(例如城市和地标)之间是统一的。

图2:在每个模型、数据集和层上训练的用于线性探测的样本R2

图3:当实体名称包含在Llama-2-70b的不同提示中时的样本R2

此外,作者还识别到了单个的“空间神经元”和“时间神经元”,他们可靠地编码了空间和时间坐标。这些分析表明,现代大语言模型获得了关于空间和时间等基本维度的结构化知识,这支持了大语言模型不仅学习表层的统计数据,也学习世界模型。

图4:Llama-2模型中的空间和时间神经元。



编译|黄泽豪

AI+Science 读书会



详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动



推荐阅读

1. AI 为什么会有创造力?范畴论刻画大模型创造力的来源
2. 大模型的能力边界在哪里?来自范畴论视角的答案
3. 探索“AI 大统一理论”:科学启发的机器学习理论
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会