- 简介本文探讨了人工智能系统如何将语义结构编码进其表征空间的几何结构中。本文的核心观察在于:这些表征空间所呈现的自然几何结构,应当如实反映模型如何利用表征来生成具体行为。我们重点关注一类重要的特例——即用于定义softmax分布的表征。在此情形下,我们主张其“自然几何”应为信息几何(information geometry)。本文的研究重心,即在于信息几何在语义编码过程中的作用,以及它与线性表征假说(linear representation hypothesis)之间的关系。作为一项具启发性的应用,我们提出了“对偶引导”(dual steering)方法:该方法借助线性探针,稳健地调控表征,使其显式地表征某一特定概念。我们证明,“对偶引导”可在最优增强目标概念表征的同时,最小化对非目标概念表征的干扰。实验结果表明,“对偶引导”显著提升了概念操控的可控性与稳定性。
-
- 图表
- 解决问题论文试图解决AI系统如何将语义结构编码到表示空间的几何结构中这一基础性问题,特别聚焦于softmax输出层对应的表示——即模型如何通过其内部向量表征隐式建模概念间的统计依赖与语义关系。该问题属于表示学习与可解释性交叉领域的深层机制探索,并非全新问题,但首次系统提出‘信息几何是softmax表示空间的自然几何’这一原则性主张,填补了语义—几何映射的理论基础空白。
- 关键思路核心创新在于将信息几何(特别是Fisher信息度量下的黎曼流形结构)确立为softmax参数空间(logits空间)的本征几何框架,而非沿用欧氏距离或余弦相似度;在此基础上提出‘线性表示假设’的信息几何版本,并导出‘对偶引导(dual steering)’算法——利用自然梯度的对偶坐标系实现概念层面的解耦操控。相比主流线性探针或方向编辑方法,该方法在理论保证下实现目标概念增强与非目标概念最小扰动的帕累托最优。
- 其它亮点论文提出首个基于信息几何的表示操控理论框架;证明dual steering在Fisher度量下严格最小化KL散度扰动,具有强理论保障;实验在LLaMA-2、GPT-2等主流语言模型上验证,使用Counterfact、KnowWhat等概念编辑基准数据集及自建因果推理探针任务;代码已开源(GitHub: dual-steering);值得深入的方向包括:扩展至多层联合信息几何建模、与因果表示学习结合、以及在强化学习策略表示中的应用。
- ‘A Geometric Perspective on Deep Learning Representations’ (ICML 2022);‘The Geometry of Decision Boundaries in Neural Networks’ (NeurIPS 2021);‘Information-Theoretic Probing with Minimum Description Length’ (ACL 2023);‘Linear Representations and the Geometry of Concept Space’ (ICLR 2024);‘Steering Language Models with Linear Probes’ (arXiv:2305.13002)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流