推理能力是人类智能的核心能力之一。随着预训练技术的不断发展,大模型辅之以提示学习(如 Chain-of-Thought Prompting [1])涌现出一系列的惊人的推理能力,引起了学术界、工业界学者的广泛关注。本文介绍一篇「基于语言模型提示学习的推理」综述,其从提示学习的视角对各种前沿推理工作进行了系统的划分、梳理和对比。
本文对「基于语言模型提示学习的推理」的最新进展进行了梳理,包括预备知识、提示推理方法的分类、深入的比较和讨论、开放的基准和资源、以及未来的潜在方向。

图片

论文链接:

https://arxiv.org/abs/2212.09597  

资源列表:

https://github.com/zjunlp/Prompt4ReasoningPapers

预训练模型推理理论。大模型已经被证明具有“涌现”的零样本学习和推理等能力。为了探究这样的成功中的原因,许多研究人员从经验上探讨了上下文学习(如 [24] 探讨了 In-context Learning 可以近似为一种前向梯度下降)和推理依据的作用,但仍需要对大模型提示学习推理的潜在理论原理有更深入的理解。

高效推理。现有的方法主要依赖于大模型,这会消耗大量的计算资源。考虑到实用性,研究开发高效大模型即是服务 [25],或通过大模型赋能小模型推理是有必要的,在模型训练和推理过程中有利于降低碳排放实现绿色 AI。

鲁棒、可信、可解释推理。大多数深度学习模型缺乏鲁棒性和可解释性,尤其是在推理等需要强逻辑的任务中。近期有工作发现大模型提示学习推理存在很强的偏见和毒性,因而研究鲁棒可信可解释的推理具有非常重要的意义。

多模态(交互式)推理。文本推理仅局限于可以通过自然语言表达的内容。考虑到人类在现实世界中推理时信息的多样性,一个更有前途的方向是多模态推理。此外,多模态(交互式)推理方法也可以受其他领域(例如认知科学等)的启发。

泛化(真正的)推理。泛化是模型获得真正推理能力的最重要标志之一。给定一个推理任务,我们希望 预训练模型不仅可以处理问题本身,还可以解决一组类似的推理任务(在训练阶段未见过)。现阶段,大模型基于提示学习涌现出一定的分布外泛化能力 [27],这种能力是否可以适用于推理并实现新领域、新任务的自适应仍值得探索。

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除