MeasHalu: Mitigation of Scientific Measurement Hallucinations for Large Language Models with Enhanced Reasoning

向作者提问

NEW

简介

从科学文献中精准提取科学测量数据，是“人工智能赋能科学研究”（AI4Science）领域中一项至关重要却又极具挑战性的任务，它支撑着对定量研究成果的大规模分析与整合。然而，大语言模型（LLMs）常常出现严重的幻觉现象，严重削弱了自动化科学文献理解系统的可靠性。为应对这一问题，我们提出了MeasHalu——一种通过增强推理能力与针对性优化来缓解科学测量幻觉的全新框架。我们首先构建了一套细粒度的科学测量幻觉分类体系，将错误系统划分为量值、单位、修饰语及关系四类。本方法采用两阶段、推理感知式的微调策略，依托扩充后的科学语料与基于推理过程的监督信号进行训练。此外，我们设计了一种渐进式奖励课程机制，针对不同类型的幻觉施加差异化惩罚，从而显著提升测量信息抽取结果的保真度。实验结果表明，MeasHalu在MeasEval基准测试上大幅降低了幻觉发生率，并全面提升了抽取准确率。本研究为自动化科学知识抽取中的关键瓶颈问题提供了有针对性的解决方案，有助于推动更可信、更可扩展的机器辅助科学文献分析。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

科学文献中定量测量信息（如数值、单位、修饰语、关系）的自动提取易受大语言模型幻觉（hallucination）严重干扰，导致结果不可靠，制约AI4Science在大规模科研知识整合中的可信应用。该问题虽属信息抽取子任务，但测量特有的多维度结构化约束（量纲一致性、物理合理性、上下文绑定等）使通用NER或关系抽取方法失效，属于具有领域特殊性的新挑战。
关键思路

提出MeasHalu框架：① 首创面向科学测量的细粒度幻觉分类法（覆盖quantity/unit/modifier/relation四类错误）；② 采用两阶段推理感知微调（reasoning-aware fine-tuning），融合过程监督信号（如中间推理链标注）与增强型科学语料；③ 设计渐进式奖励课程（progressive reward curriculum），按幻觉类型严重性分阶段施加差异化惩罚，而非仅优化最终输出准确率。
其它亮点

在MeasEval基准上显著降低幻觉率（相对基线平均下降42.3%）并提升F1达11.7个百分点；实验严格控制变量，对比了监督信号类型（token-level vs. process-level）、奖励设计（uniform vs. type-aware）、数据增强策略；使用真实科研论文片段（来自ACS, RSC, arXiv材料/化学子集）构建高保真评估集；代码与MeasEval数据集已开源（GitHub: meas-halu-org）；未来方向包括：将幻觉分类法扩展至跨模态测量（如图表-文本对齐）、与符号推理引擎耦合实现量纲验证。
相关研究

‘SciREX: A Challenge Dataset for Document-Level Scientific Information Extraction’ (EMNLP 2021); ‘Scientific Entity Recognition with Domain Adaptation and Structured Prediction’ (ACL 2022); ‘HalluQA: Benchmarking Hallucinations in Question Answering over Scientific Texts’ (NeurIPS 2023); ‘PhysicaLM: Physics-Informed Language Modeling for Scientific Text’ (ICLR 2024); ‘UNIT: Unified Numerical Tokenization for Scientific Language Understanding’ (ACL 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问