- 简介大型语言模型(LLM)的推理能力仍然是一个争议话题。一些方法,如基于ReAct的提示方法,因声称增强代理LLM的顺序决策能力而变得流行。然而,目前尚不清楚ReAct提示方法在LLM推理能力提高方面的来源。本文研究了ReAct提示方法在提高代理LLM顺序决策方面的这些声称。通过对输入提示进行系统性变化,我们对ReAct的声称进行了敏感性分析,并发现性能受到“交错推理轨迹和行动执行”的影响或ReAct生成的推理轨迹内容的影响最小,这与原始声称和常见用法相反。相反,LLM的性能受到输入示例任务和查询之间的相似性的驱动,隐含地迫使提示设计者提供特定实例的示例,这显著增加了人类的认知负担。我们的调查表明,LLM的推理能力是源于示例-查询相似性和近似检索,而不是任何固有的推理能力。
-
- 图表
- 解决问题研究ReAct-based prompting对于增强LLMs序列决策能力的影响,以及其背后的原因。
- 关键思路ReAct-based prompting并没有直接增强LLMs的推理能力,而是依赖于输入示例任务与查询之间的相似性,需要提供实例特定的示例任务,增加了人类的认知负担。
- 其它亮点通过对输入提示的系统性变化进行敏感性分析,发现ReAct和生成的推理痕迹内容对LLMs的性能影响很小,而是输入示例任务与查询之间的相似性驱动了LLMs的性能。研究表明,LLMs的推理能力主要来自示例-查询相似性和近似检索,而非内在的推理能力。
- 近期的相关研究包括《GPT-3的能力和局限性》、《大型语言模型的推理能力评估》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流