An Incomplete Loop: Deductive, Inductive, and Abductive Learning in Large Language Models

2024年04月03日
  • 简介
    现代语言模型可以通过不同的方式学习执行新任务:在指令跟随中,目标任务在自然语言中明确描述;在少量样本提示中,任务通过少量示例隐含指定;在指令推断中,语言模型被呈现出上下文示例,然后在进行预测之前提示生成自然语言任务描述。每种过程都可以被视为调用不同形式的推理:指令跟随涉及演绎推理,少量样本提示涉及归纳推理,指令推断涉及诱导推理。这些不同的能力之间有什么关系?在四个语言模型(来自gpt和llama家族)和两个学习问题(涉及算术函数和机器翻译)中,我们发现不同类型的推理之间存在强烈的分离:即使无法解释自己的预测规则,语言模型有时仍然可以有效地从少量提示中学习;相反,有时它们会从人类生成的相同任务描述中完全无法学习,但会推断出有用的任务描述。我们的结果突显了今天一些最大的语言模型中推理的非系统性,并强调了看似相似的提示过程可能会调用非常不同的学习机制。
  • 图表
  • 解决问题
    本论文旨在探讨不同的语言模型(LMs)在执行新任务时的不同学习方式及其对应的推理方式,以及它们之间的关系。论文试图回答这些问题:LMs能否从少量示例中学习新任务?LMs是否可以通过推断任务描述来学习新任务?这些不同的学习方式和推理方式之间是否存在联系?
  • 关键思路
    本论文发现,不同的学习方式和推理方式之间存在强烈的分离现象,即LMs有时可以从少量示例中有效地学习,但无法解释其预测规则;相反,它们有时可以推断出有用的任务描述,但完全无法从人类生成的任务描述中学习相同的任务。这表明即使在当今最大的LMs中,推理的过程也是非系统化的,而且看似相似的提示过程可能会调用非常不同的学习机制。
  • 其它亮点
    本论文使用了四种不同的LMs,涉及算术函数和机器翻译两个学习问题,进行了一系列实验。结果表明,LMs在某些情况下可以从少量示例中有效地学习,但无法解释其预测规则;相反,它们有时可以推断出有用的任务描述,但完全无法从人类生成的任务描述中学习相同的任务。这表明即使在当今最大的LMs中,推理的过程也是非系统化的,而且看似相似的提示过程可能会调用非常不同的学习机制。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:《Meta-Learning with Differentiable Convex Optimization》、《Few-Shot Adversarial Learning of Realistic Neural Talking Head Models》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论