On the Brittle Foundations of ReAct Prompting for Agentic Large Language Models

2024年05月22日
  • 简介
    大型语言模型(LLM)的推理能力仍然是一个争议话题。一些方法,如基于ReAct的提示方法,因声称增强代理LLM的顺序决策能力而变得流行。然而,目前尚不清楚ReAct提示方法在LLM推理能力提高方面的来源。本文研究了ReAct提示方法在提高代理LLM顺序决策方面的这些声称。通过对输入提示进行系统性变化,我们对ReAct的声称进行了敏感性分析,并发现性能受到“交错推理轨迹和行动执行”的影响或ReAct生成的推理轨迹内容的影响最小,这与原始声称和常见用法相反。相反,LLM的性能受到输入示例任务和查询之间的相似性的驱动,隐含地迫使提示设计者提供特定实例的示例,这显著增加了人类的认知负担。我们的调查表明,LLM的推理能力是源于示例-查询相似性和近似检索,而不是任何固有的推理能力。
  • 作者讲解
  • 图表
  • 解决问题
    研究ReAct-based prompting对于增强LLMs序列决策能力的影响,以及其背后的原因。
  • 关键思路
    ReAct-based prompting并没有直接增强LLMs的推理能力,而是依赖于输入示例任务与查询之间的相似性,需要提供实例特定的示例任务,增加了人类的认知负担。
  • 其它亮点
    通过对输入提示的系统性变化进行敏感性分析,发现ReAct和生成的推理痕迹内容对LLMs的性能影响很小,而是输入示例任务与查询之间的相似性驱动了LLMs的性能。研究表明,LLMs的推理能力主要来自示例-查询相似性和近似检索,而非内在的推理能力。
  • 相关研究
    近期的相关研究包括《GPT-3的能力和局限性》、《大型语言模型的推理能力评估》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问