On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models

简介

大型语言模型（LLM）的推理能力仍然是一个争议话题。一些方法，如基于ReAct的提示方法，因声称增强代理LLM的顺序决策能力而变得流行。然而，目前尚不清楚ReAct提示方法在LLM推理能力提高方面的来源。本文研究了ReAct提示方法在提高代理LLM顺序决策方面的这些声称。通过对输入提示进行系统性变化，我们对ReAct的声称进行了敏感性分析，并发现性能受到“交错推理轨迹和行动执行”的影响或ReAct生成的推理轨迹内容的影响最小，这与原始声称和常见用法相反。相反，LLM的性能受到输入示例任务和查询之间的相似性的驱动，隐含地迫使提示设计者提供特定实例的示例，这显著增加了人类的认知负担。我们的调查表明，LLM的推理能力是源于示例-查询相似性和近似检索，而不是任何固有的推理能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究ReAct-based prompting对于增强LLMs序列决策能力的影响，以及其背后的原因。
关键思路

ReAct-based prompting并没有直接增强LLMs的推理能力，而是依赖于输入示例任务与查询之间的相似性，需要提供实例特定的示例任务，增加了人类的认知负担。
其它亮点

通过对输入提示的系统性变化进行敏感性分析，发现ReAct和生成的推理痕迹内容对LLMs的性能影响很小，而是输入示例任务与查询之间的相似性驱动了LLMs的性能。研究表明，LLMs的推理能力主要来自示例-查询相似性和近似检索，而非内在的推理能力。
相关研究

近期的相关研究包括《GPT-3的能力和局限性》、《大型语言模型的推理能力评估》等。

On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models

提问交流

提问交流