The ART of LLM Refinement: Ask, Refine, and Trust

2023年11月14日
  • 简介
    近年来,大型语言模型(LLMs)展示了非凡的生成能力,但它们能判断自己生成的质量吗?一个流行的概念称为自我完善,认为LLMs可以在被要求时检测和纠正其生成中的错误。然而,最近的实证证据指向相反的方向,表明当涉及推理时,LLMs经常难以准确地识别错误。为了解决这个问题,我们提出了一种名为ART的推理完善目标:询问、完善和信任,它通过提出必要的问题来决定LLMs何时应该完善其输出,并通过排名完善和初始预测来确认或保留对其完善的信任。在两个多步推理任务(数学单词问题(GSM8K)和问答(StrategyQA))中,ART相对于自我完善基线获得了+5分的性能增益,同时使用一个更小的模型作为决策者。我们还展示了使用较小的模型作为完善决策的成本效益替代方案,以替代微调更大模型的好处。
  • 图表
  • 解决问题
    论文试图解决如何让大型语言模型(LLMs)在生成文本时自我检查和自我修正的问题。这是否是一个新问题?
  • 关键思路
    论文提出了一种名为ART的基于推理和修正的目标函数,通过询问必要的问题来决定何时让LLMs进行修正,并通过对修正和初始预测进行排序来确认或保留对修正的信任。相比当前领域的研究,这篇论文的新思路是将推理和修正相结合,使用更小的模型作为决策者,从而提高了性能。
  • 其它亮点
    论文在两个多步推理任务(数学单词问题和问答)上使用ART实现了+5个百分点的性能提升,而使用更小的模型作为决策者是一种成本效益的替代方案。此外,论文还开源了代码,并提供了相关数据集的详细信息,这对于进一步研究这个领域是非常有帮助的。
  • 相关研究
    最近在这个领域中,一些相关的研究包括:1.《Self-Regulated Learning in Language Models》;2.《Improving Language Understanding by Generative Pre-Training》;3.《Learning to Explain: Datasets and Models for Identifying Valid Reasoning Chains in Multihop Question-Answering》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论