The Geometry of Categorical and Hierarchical Concepts in Large Language Models

2024年06月03日
  • 简介
    理解大型语言模型中语义含义如何编码在表示空间中是可解释性中的一个基本问题。本文研究了这个领域中的两个基本问题。第一个问题是,如何表示分类概念,例如 {'哺乳动物','鸟类','爬行动物','鱼类'}。第二个问题是,如何编码概念之间的层次关系?例如,如何编码“狗”是“哺乳动物”的一种这一事实?我们展示了如何扩展线性表示假设来回答这些问题。我们发现了一个非常简单的结构:简单的分类概念被表示为单纯形,具有层次关系的概念在我们明确的意义上是正交的,并且(因此)复杂的概念被表示为由单纯形的直和构成的多面体,反映了层次结构。我们使用WordNet的数据对957个具有层次关系的概念在Gemma大型语言模型中进行了估计,验证了这些理论结果。
  • 图表
  • 解决问题
    论文旨在解决大型语言模型中语义含义如何编码的问题,特别是涉及到分类概念和概念之间的层次关系编码的问题。
  • 关键思路
    论文提出了线性表示假设的扩展,将简单的分类概念表示为单纯形,层次关系概念在某种意义下是正交的,复杂概念表示为由单纯形的直和构成的多面体,反映了层次结构。
  • 其它亮点
    论文在Gemma大型语言模型上验证了理论结果,使用WordNet中的数据估计了957个层次关系概念的表示,实验结果表明论文提出的方法具有很好的性能。
  • 相关研究
    近期的相关研究包括:1)《Interpreting Neural Networks Representing Sentences: Towards Understanding Neural Network Representations of Natural Language》;2)《A Survey of Deep Learning for Scientific Discovery》;3)《Interpretable Machine Learning: A Brief History, State-of-the-Art and Challenges》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论