Self-Reflection Outcome is Sensitive to Prompt Construction

简介

大型语言模型（LLMs）展示了令人印象深刻的零样本和少样本推理能力。一些人提出这种能力可以通过自我反思来提高，即让LLMs反思其自身输出，以识别和纠正初始响应中的错误。然而，尽管有一些证据表明自我反思的好处，但最近的研究结果却参差不齐。在这里，我们的目标是首先证明自我反思的结果对提示措辞很敏感；例如，当明确提示查找错误时，LLMs更有可能得出它犯了错误的结论。因此，反思提示中的特殊性可能会导致LLMs不必要地更改正确的响应。我们展示了自我反思文献中使用的大多数提示都容易出现这种偏见。然后，我们提出了构建保守识别错误提示的不同方法，并展示使用这些提示进行自我反思可以提高准确性。我们的发现强调了自我反思任务中提示工程的重要性。我们在https://github.com/Michael98Liu/mixture-of-prompts上发布了我们的代码。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决自我反思对大型语言模型（LLMs）性能提升的影响问题。具体而言，研究人员发现自我反思的结果受提示措辞的影响，而目前的提示措辞容易引起偏见，导致LLMs在不必要的情况下更改正确的响应。
关键思路

本论文提出了构建保守提示的方法，以减少自我反思对LLMs正确响应的负面影响。
其它亮点

论文通过实验表明，自我反思对LLMs性能提升的影响与提示措辞密切相关，而当前使用的提示措辞容易引起偏见。研究人员提出了构建保守提示的方法，并证明这种方法可以提高自我反思的准确性。研究人员还在GitHub上发布了代码。
相关研究

近期的相关研究包括“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”和“Few-shot Learning with Language Models Revisited”。

Self-Reflection Outcome is Sensitive to Prompt Construction

提问交流

提问交流