SelfIE: Self-Interpretation of Large Language Model Embeddings

2024年03月16日
  • 简介
    大型语言模型(LLMs)是如何得出答案的?解释和控制LLM的推理过程对于可靠性、透明度和未来的模型发展至关重要。我们提出了SelfIE(嵌入式自我解释)框架,它可以通过利用LLMs对给定段落的查询响应能力,使LLMs能够用自然语言解释它们自己的嵌入。SelfIE能够在隐藏的嵌入中解释开放世界的概念,揭示LLM在做出道德决策、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE对隐藏嵌入的文本描述也开辟了控制LLM推理的新途径。我们提出了监督控制,它允许编辑开放式概念,同时仅需要计算单个层的梯度。我们扩展了RLHF到隐藏嵌入,并提出了强化控制,可以在没有监督目标的情况下消除LLM中的有害知识。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在提高大型语言模型的可靠性、透明度和未来发展,通过自我解释嵌入(SelfIE)框架,使LLMs能够解释自己的嵌入,从而揭示LLMs内部推理过程。
  • 关键思路
    SelfIE框架利用LLMs对给定段落的回答能力,使其能够用自然语言解释其自身嵌入,揭示LLMs在进行伦理决策、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE的文本描述还为控制LLMs的推理开辟了新的途径。
  • 其它亮点
    论文提出了SelfIE框架和两种控制LLMs推理的方法:Supervised Control和Reinforcement Control。实验结果表明,SelfIE可以解释LLMs内部推理过程,Supervised Control可以编辑开放式概念而不需要计算整个模型的梯度,Reinforcement Control可以消除LLMs中的有害知识。论文还使用了多个数据集进行实验,并提供了开源代码。
  • 相关研究
    近年来,与LLMs可解释性和控制相关的研究很多,例如“Interpretation of Natural Language Rules in Conversational Machine Reading”和“Controlling Text Generation with Plug and Play Language Models”。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问