Truth-value judgment in language models: belief directions are context sensitive

2024年04月29日
  • 简介
    最近的研究表明,大型语言模型(LLMs)的潜在空间包含了预测句子真实性的方向。多种方法恢复这些方向并构建探针,被描述为获取模型的“知识”或“信念”。我们调查了这种现象,仔细研究了上下文对探针的影响。我们的实验确定了在LLM中,探针的预测可以被描述为有条件于前面(相关的)句子的存在。具体而言,我们量化了探针对(否定的)支持和矛盾句子存在的敏感性,并对探针的一致性进行评分。我们还进行了因果干预实验,研究将前提的表示沿着这些信念方向移动是否会影响假设在同一方向上的位置。我们发现,我们测试的探针通常是上下文敏感的,但是不应影响真实性的上下文仍然会影响探针输出。我们的实验表明,错误类型取决于层、(类型的)模型和数据类型。最后,我们的结果表明,信念方向是包含上下文信息的推理过程中的(一个)因果中介变量。
  • 图表
  • 解决问题
    研究大型语言模型(LLMs)的潜在空间中存在的方向是否可以预测句子的真实性,并探究上下文对探针的影响。
  • 关键思路
    通过实验确定探针的预测是否取决于前文的语境,以及探究探针对支持和反驳句子的敏感性和一致性,并进行因果干预实验,发现信念方向是推理过程中整合上下文信息的因果中介变量之一。
  • 其它亮点
    实验表明探针通常是上下文敏感的,但有些上下文对真实性并没有影响。错误类型取决于层、模型类型和数据类型。结果表明信念方向是整合上下文信息的因果中介变量之一。
  • 相关研究
    最近的相关研究包括:Emergent Communication in a Multi-Modal, Multi-Agent Reinforcement Learning Environment, Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference, Improving Language Understanding by Generative Pre-Training
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论