What's the Magic Word? A Control Theory of LLM Prompting

2023年10月02日
  • 简介
    对于部署LLM来说,快速响应工程至关重要,但其在数学上的理解还很不完善。我们将LLM系统形式化为一类离散随机动态系统,通过控制理论的视角探索快速响应工程。我们研究了输出记号序列的可达集合$R_y(\mathbf x_0)$,并证明了对于其中的每个$\mathbf y \in R_y(\mathbf x_0)$,都存在一个控制输入序列$\mathbf u$,可以从初始状态序列$\mathbf x_0$将LLM引导输出$\mathbf y$。我们对自注意力的可控性进行了限制性的分析,证明了输出可达集合$R_y(\mathbf x_0)$的上限,其取决于参数矩阵的奇异值。我们还对一系列LLM进行了补充的实证分析,包括Falcon-7b、Llama-7b和Falcon-40b。我们的结果展示了关于初始状态序列$\mathbf x_0$的输出可达集合$R_y(\mathbf x_0)$的下限。我们发现,使用$k\leq 10$个记号的提示时,可以在97%以上的情况下找到下一个Wikitext记号。我们还确定,使用$k\leq 10$个记号的提示时,根据LLM本身的估计,最可能的前75个下一个记号在85%以上的情况下都是可以到达的。有趣的是,短提示序列可以极大地改变特定输出的可能性,甚至使最不可能的记号变成最可能的。这种以控制为中心的LLM分析展示了输入序列在引导输出概率方面的重要而不完全理解的作用,为增强语言模型系统的能力提供了基础性的视角。
  • 图表
  • 解决问题
    本论文旨在通过控制论的角度,探索prompt engineering对于LLMs的重要性,以及控制input sequences对于输出概率的影响。同时,论文也试图验证self-attention的可控性限制问题。
  • 关键思路
    论文将LLMs系统形式化为一类离散随机动态系统,并通过控制论的方法研究其可达性问题。通过分析参数矩阵的奇异值,证明了self-attention的可控性受到限制,并且在实验中发现短提示序列可以显著改变特定输出的概率。
  • 其它亮点
    本论文通过控制论的角度,探讨了prompt engineering对于LLMs的重要性,并提出了一种新的思路。实验结果表明,短提示序列可以显著影响特定输出的概率。论文还使用了Wiketext数据集进行了实验,并开源了代码。
  • 相关研究
    最近的相关研究包括《Attention is not Explanation》、《On the Relationship between Self-Attention and Convolutional Layers》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论