Unveiling and Manipulating Prompt Influence in Large Language Models

2024年05月20日
  • 简介
    提示在引导大型语言模型的响应方面起着至关重要的作用。然而,提示中每个单词的复杂作用,即输入显著性,在塑造响应方面的作用仍然未被充分探索。现有的显著性方法要么与LLM生成目标不符,要么过于依赖线性假设,可能导致不准确性。为了解决这个问题,我们提出了Token Distribution Dynamics(TDD),这是一种简单而有效的方法,用于揭示和操纵提示在生成LLM输出方面的作用。TDD利用语言模型头(LM头)的强大解释能力来评估输入显著性。它将输入单词投影到嵌入空间,然后基于词汇表上的分布动态来估计它们的重要性。我们介绍了三种TDD变体:前向、后向和双向,每种变体都提供了独特的有关单词相关性的见解。广泛的实验表明,TDD在阐明提示和LLM输出之间的因果关系方面,超过了最先进的基线方法。除了简单的解释之外,我们将TDD应用于两个提示操纵任务,以进行控制文本生成:零-shot有害语言抑制和情感调节。实证结果强调了TDD在识别提示中有害和情感线索方面的熟练程度,随后在生成的内容中减轻了有害性或调节了情感。
  • 图表
  • 解决问题
    本论文旨在探索输入显著性在引导大型语言模型生成中的作用,并提出了Token Distribution Dynamics (TDD)方法来揭示和操作提示在生成LLM输出中的作用。
  • 关键思路
    TDD利用语言模型头(LM head)的强大解释能力来评估输入显著性,通过将输入标记投影到嵌入空间中并基于词汇表上的分布动态来估计它们的重要性。
  • 其它亮点
    本文提出了三种TDD变体:前向、后向和双向,每种变体都提供了独特的标记相关性洞察。实验结果表明,TDD在阐明提示和LLM输出之间的因果关系方面优于现有的基线方法。此外,TDD在两个提示操作任务中的应用表明其在识别提示中的有毒和感性线索方面的熟练程度,从而在生成内容中减轻有毒性或调节情感。
  • 相关研究
    在最近的相关研究中,也有一些关于提示解释的工作,如LIME和SHAP等方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论