Understanding the Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation

2024年02月05日
  • 简介
    预训练语言模型(LMs)能够在没有显式微调的情况下执行复杂的推理。为了理解使用下一个令牌预测目标进行预训练如何促进这种推理能力的出现,我们提出可以将LM视为通过聚合在预训练期间看到的间接推理路径来得出新结论。我们发现这种观点在两个重要的推理情况下是有效的:使用知识图(KGs)进行逻辑推理和使用数学单词问题(MWPs)进行数学推理。更具体地说,我们将推理路径形式化为知识/推理图上的随机游走路径。对学习的LM分布的分析表明,相关随机游走路径概率的加权和是解释LM推理方式的合理方法。对多个KG和MWP数据集的实验和分析揭示了随机游走路径训练的效果,并表明增加未标记的随机游走推理路径可以提高现实世界的多步推理性能。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图探究预训练语言模型如何通过聚合预训练时看到的间接推理路径来进行复杂推理,并在逻辑推理和数学推理两个重要领域中进行实验验证。
  • 关键思路
    将预训练语言模型看作在预训练时聚合间接推理路径的结果,通过对知识图谱和数学问题的随机游走路径进行形式化建模,分析学习到的语言模型分布,提出加权随机游走路径概率之和的方式来解释预训练语言模型推理的过程。
  • 其它亮点
    论文的实验结果表明,增加未标注的随机游走推理路径可以提高实际多步推理的性能,这对于实际应用具有重要意义。论文使用了多个知识图谱和数学问题数据集进行实验,并对训练随机游走路径的影响进行了分析。此外,论文提供了开源代码。
  • 相关研究
    在这个领域中,最近还有一些相关研究,如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《GPT-2: Language Models are Unsupervised Multitask Learners》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问