SelfIE: Self-Interpretation of Large Language Model Embeddings

向作者提问

NEW

简介

大型语言模型（LLMs）是如何得出答案的？解释和控制LLM的推理过程对于可靠性、透明度和未来的模型发展至关重要。我们提出了SelfIE（嵌入式自我解释）框架，它可以通过利用LLMs对给定段落的查询响应能力，使LLMs能够用自然语言解释它们自己的嵌入。SelfIE能够在隐藏的嵌入中解释开放世界的概念，揭示LLM在做出道德决策、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE对隐藏嵌入的文本描述也开辟了控制LLM推理的新途径。我们提出了监督控制，它允许编辑开放式概念，同时仅需要计算单个层的梯度。我们扩展了RLHF到隐藏嵌入，并提出了强化控制，可以在没有监督目标的情况下消除LLM中的有害知识。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在提高大型语言模型的可靠性、透明度和未来发展，通过自我解释嵌入（SelfIE）框架，使LLMs能够解释自己的嵌入，从而揭示LLMs内部推理过程。
关键思路

SelfIE框架利用LLMs对给定段落的回答能力，使其能够用自然语言解释其自身嵌入，揭示LLMs在进行伦理决策、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE的文本描述还为控制LLMs的推理开辟了新的途径。
其它亮点

论文提出了SelfIE框架和两种控制LLMs推理的方法：Supervised Control和Reinforcement Control。实验结果表明，SelfIE可以解释LLMs内部推理过程，Supervised Control可以编辑开放式概念而不需要计算整个模型的梯度，Reinforcement Control可以消除LLMs中的有害知识。论文还使用了多个数据集进行实验，并提供了开源代码。
相关研究

近年来，与LLMs可解释性和控制相关的研究很多，例如“Interpretation of Natural Language Rules in Conversational Machine Reading”和“Controlling Text Generation with Plug and Play Language Models”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问