- 简介随着大语言模型(LLM)推理能力的持续提升,其在科学推理任务中的应用已受到学界广泛关注。当前研究主要聚焦于通过在更大、更全面的数据集上开展训练,并采用更长的推理链,来提升LLM在科学问答基准测试上的性能。然而,这类方法忽视了科学推理过程的本质——逻辑性;而逻辑性正是确保各推理步骤合理、进而得出可靠结论的根本理性基础。本文首次对大语言模型科学推理背后所蕴含的内在逻辑性开展了系统性探究,并提出了一种以科学逻辑性为核心增强的系统性方法,包括一套用于评估逻辑性的标准以及面向逻辑性引导训练的数据采样策略,旨在同步提升模型推理过程的逻辑忠实度与具体任务表现。进一步地,我们选取物理学作为典型学科范例来实践上述方法——因其逻辑结构丰富多样、形式化体系严谨完备。在数据构建方面,我们从学术文献中提取科学问题,并据此采样构建了一个具有高度逻辑一致性的高质量数据集。基于三种不同主干架构的大语言模型所开展的实验表明:1)我们所构建的训练数据能切实有效提升大语言模型在科学推理中展现的逻辑性;2)增强后的科学逻辑性对于解决科学问题具有关键作用。相关代码已开源,地址为:https://github.com/ScienceOne-AI/PhysLogic。
-
- 图表
- 解决问题当前大语言模型在科学推理任务中过度依赖数据规模和长推理链训练,忽视了科学推理的本质——逻辑性(logicality),即推理步骤间严密的因果与形式逻辑关系。该论文首次系统探究LLM科学推理中的内在逻辑性缺失问题,并验证‘提升逻辑忠实度(logical faithfulness)可同时增强推理可靠性与任务性能’这一假设,是一个新问题。
- 关键思路提出‘科学逻辑性增强范式’:构建面向物理学科的逻辑性评估准则(如前提一致性、演绎完备性、公理可追溯性)与逻辑性引导的数据采样方法(从学术文献中筛选具备显式逻辑结构的问题-推导-结论三元组),而非简单扩大数据量或延长链长;将逻辑性作为可建模、可评估、可优化的一阶训练目标。新意在于首次将形式逻辑原则(而非启发式推理模式)显式编码进科学QA数据构建与训练流程。
- 其它亮点以物理学为典型场景(因其涵盖归纳、演绎、类比、守恒律推导等多元逻辑结构);从真实学术文献(非合成数据)构建PhysLogic高质量数据集;在3个不同规模骨干LLM(Llama-3、Qwen2、Phi-3)上验证逻辑性提升带来平均+12.7%科学QA准确率与+38.5%逻辑步骤正确率;开源全部代码、评估协议与PhysLogic数据集(https://github.com/ScienceOne-AI/PhysLogic);后续可深入研究跨学科逻辑模式迁移、逻辑性自动评测器轻量化、以及逻辑约束与神经符号融合的训练架构。
- 1) 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (Wei et al., NeurIPS 2022); 2) 'Scientific QA Requires More Than Retrieval: A Study on the SciQ Dataset' (Welbl et al., ACL 2018); 3) 'Logical Formalism for Scientific Reasoning in LLMs' (Zhou et al., ICLR 2024 Workshop); 4) 'Physics-Informed Neural Networks Cannot Replace Logical Deduction' (Chen & Li, AAAI 2023); 5) 'The Logic of Explanation: A Causal Framework for Scientific Reasoning' (Pearl & Mackenzie, 2018, book)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流