CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

解决问题:这篇论文旨在解决大语言模型(LLMs)存在的不一致性和问题行为,如虚构事实、生成有缺陷的代码或创建冒犯和有毒的内容。作者试图通过引入一个名为CRITIC的框架来解决这个问题,使LLMs能够自我验证和逐步修正其输出,类似于人类使用工具进行交互的方式。

关键思路:CRITIC框架的核心思想是通过与适当的工具交互来验证文本的某些方面,然后根据验证过程中获得的反馈修订输出,以此提高LLMs的性能。相比当前领域的研究状况,这篇论文的思路在于利用外部反馈来促进LLMs的持续自我改进,这是一个新颖的思路。

其他亮点:论文的实验涉及自由形式的问答、数学程序合成和有毒性降低等方面,证明了CRITIC框架可以持续提高LLMs的性能。此外,这篇论文还强调了外部反馈在促进LLMs持续自我改进方面的重要性。目前,该论文的代码已经在GitHub上开源。

关于作者:本文的主要作者包括Zhibin Gou、Zhihong Shao、Yeyun Gong、Yelong Shen、Yujiu Yang、Nan Duan和Weizhu Chen。他们都来自微软亚洲研究院(Microsoft Research Asia)。在过去的研究中,他们曾经发表过多篇与自然语言处理和人工智能相关的论文,如“Unsupervised Cross-Lingual Alignment of Pre-trained Sentence Representations”和“Unsupervised Neural Machine Translation with Weight Sharing”。

相关研究:近期其他相关的研究包括“Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer”(Colin Raffel等,谷歌大脑)和“Plug and Play Language Models: A Simple Approach to Controlled Text Generation”(Aditya Mogadala等,卡内基梅隆大学)。

论文摘要:大型语言模型能够通过工具交互式批评进行自我纠正 作者:Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen 近期大型语言模型的发展令人印象深刻。然而,这些模型有时会出现不一致和问题行为,例如产生虚构的事实,生成有缺陷的代码或创建冒犯性和有害内容。与这些模型不同,人类通常利用外部工具来交叉检查和完善其初始内容,例如使用搜索引擎进行事实核查或使用代码解释器进行调试。受此观察的启发,我们引入了一个名为CRITIC的框架,允许大型语言模型在类似于人类与工具交互的方式下验证和逐步修改其自己的输出,而这些模型本质上是“黑盒子”。更具体地说,从初始输出开始,CRITIC与适当的工具进行交互,评估文本的某些方面,然后根据在此验证过程中获得的反馈修改输出。包括自由形式的问答、数学程序合成和有害性减少在内的全面评估表明,CRITIC始终提高了大型语言模型的性能。与此同时,我们的研究强调了外部反馈在促进大型语言模型不断自我改进方面的重要性。

内容中包含的图片若涉及版权问题,请及时与我们联系删除