XPrompt:Explaining Large Language Model's Generation via Joint Prompt Attribution

简介

大型语言模型（LLMs）在复杂文本生成任务中表现出了令人印象深刻的性能。然而，输入提示对生成内容的贡献仍然不为人类所知，强调了阐明和解释输入和输出对之间因果关系的必要性。现有的为提供特定提示解释的工作通常将模型输出限制为分类或下一个单词预测。少数早期尝试旨在解释整个语言生成，通常单独处理输入提示文本，忽略了它们对后续生成的组合效应。在本研究中，我们引入了一个基于联合提示归因的反事实解释框架XPrompt，旨在解释少量提示文本如何协同影响LLM的完整生成。特别地，我们将生成解释的提示归因任务表述为组合优化问题，并引入一种概率算法在离散空间中搜索因果输入组合。我们定义和利用多个指标来评估生成的解释，展示了我们框架的忠实度和效率。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

解释输入对于LLM生成内容的影响是一个未被深入研究的问题，本论文旨在提出一种联合输入归因的框架来解决这个问题。
关键思路

提出了一种基于联合输入归因的框架（XPrompt），通过在离散空间中搜索最佳输入组合来解释输入对于LLM生成内容的影响。
其它亮点

使用多种指标评估了提出的框架的可信度和效率，实验结果表明该框架具有较好的性能。
相关研究

相关研究包括提供特定输入的解释，以及解释整个语言生成过程的尝试。

XPrompt:Explaining Large Language Model's Generation via Joint Prompt Attribution

提问交流

提问交流