Are LLMs classical or nonmonotonic reasoners? Lessons from generics

简介

最近关于LLMs推理的学术研究提供了令人印象深刻的表现和对机器生成或人类反馈的灵活适应能力的证据。对于人类认知来说，非单调推理是导航现实世界的关键，但它仍然是一个具有挑战性但未被充分研究的任务。在这项工作中，我们研究了七种最先进的LLMs在一个抽象和一个常识推理任务中的非单调推理能力，这些任务涉及到泛指，如“鸟会飞”，和例外情况，“企鹅不会飞”（见图1）。虽然LLMs表现出符合人类非单调推理能力的推理模式，但它们在添加支持性例子（如“猫头鹰会飞”）或不相关信息（如“狮子有鬃毛”）时无法维持泛指的真实条件的稳定信念。我们的发现突显了将人类推理行为归因于LLMs以及评估其一般能力的陷阱，同时一致的推理仍然难以实现。
图表
解决问题

评估当前七种最先进的LLM在非单调推理任务中的表现，探究其人类推理能力的局限性和稳定性
关键思路

研究表明LLM在非单调推理任务中表现出类似于人类的推理模式，但在支持性例子或无关信息的情况下，无法保持对泛化真值条件的稳定信念
其它亮点

实验使用了两个推理任务，探究LLM的非单调推理能力，研究结果揭示了将人类推理行为归因于LLM的风险，以及评估其一般能力的困难。
相关研究

最近的相关研究包括：《A survey on explainable artificial intelligence (XAI): Toward medical XAI》、《Towards a rigorous science of interpretable machine learning》等

Are LLMs classical or nonmonotonic reasoners? Lessons from generics

评论