- 简介大型语言模型(LLMs)是如何得出答案的?解释和控制LLM的推理过程对于可靠性、透明度和未来的模型发展至关重要。我们提出了SelfIE(嵌入式自我解释)框架,它可以通过利用LLMs对给定段落的查询响应能力,使LLMs能够用自然语言解释它们自己的嵌入。SelfIE能够在隐藏的嵌入中解释开放世界的概念,揭示LLM在做出道德决策、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE对隐藏嵌入的文本描述也开辟了控制LLM推理的新途径。我们提出了监督控制,它允许编辑开放式概念,同时仅需要计算单个层的梯度。我们扩展了RLHF到隐藏嵌入,并提出了强化控制,可以在没有监督目标的情况下消除LLM中的有害知识。
-
- 图表
- 解决问题论文旨在提高大型语言模型的可靠性、透明度和未来发展,通过自我解释嵌入(SelfIE)框架,使LLMs能够解释自己的嵌入,从而揭示LLMs内部推理过程。
- 关键思路SelfIE框架利用LLMs对给定段落的回答能力,使其能够用自然语言解释其自身嵌入,揭示LLMs在进行伦理决策、内化提示注入和回忆有害知识等情况下的内部推理。SelfIE的文本描述还为控制LLMs的推理开辟了新的途径。
- 其它亮点论文提出了SelfIE框架和两种控制LLMs推理的方法:Supervised Control和Reinforcement Control。实验结果表明,SelfIE可以解释LLMs内部推理过程,Supervised Control可以编辑开放式概念而不需要计算整个模型的梯度,Reinforcement Control可以消除LLMs中的有害知识。论文还使用了多个数据集进行实验,并提供了开源代码。
- 近年来,与LLMs可解释性和控制相关的研究很多,例如“Interpretation of Natural Language Rules in Conversational Machine Reading”和“Controlling Text Generation with Plug and Play Language Models”。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流