- 简介大语言模型(LLM)的幻觉现象通常被视为模型自身或其解码策略存在的缺陷。本文借鉴经典语言学理论指出,查询语句的形式本身亦可影响听者(以及模型)的应答方式。我们据此提出可操作化的研究路径:构建一个包含22个维度的查询特征向量,涵盖从句复杂度、词汇罕见性、回指、否定、可回答性以及意图锚定等各项指标——这些因素在人类语言理解研究中已被证实具有显著影响。基于369,837条真实世界查询数据,我们提出核心问题:是否存在某些特定类型的查询,会系统性地提高模型产生幻觉的概率?大规模实证分析揭示出一幅稳定的“风险图谱”:诸如深层嵌套从句、指代信息不足等特征,与更高的幻觉发生率呈一致正相关;而意图表达清晰、问题本身具备明确可回答性,则与更低的幻觉率显著关联。另一些特征(如领域专指性)则呈现出混合效应,其影响方向和强度因具体数据集与所用模型而异。综上,本研究首次确立了一种可经实证观测的查询特征表征体系,该体系与幻觉风险存在稳健的相关性,从而为面向降低幻觉的查询重写技术提供了理论依据与实践基础,并为后续干预性研究开辟了新路径。
-
- 图表
- 解决问题论文试图验证一个假设:LLM幻觉不仅源于模型缺陷或解码策略,还系统性地受用户查询(query)的语言学特征影响;即,特定句法、语义和语用属性的查询会显著提升幻觉发生概率。这不是传统上被建模的‘输入无关’问题,而是一个新视角——将幻觉风险视为查询与模型交互的涌现属性。
- 关键思路提出首个基于经典语言学理论(如主位-述位结构、指代链、否定辖域、小句嵌套层级等)构建的22维可解释查询特征向量,并在超36万真实用户查询上实证发现‘幻觉风险景观’(hallucination risk landscape)——例如深度嵌套从句和指代未消解(underspecification)显著增险,而清晰的意图锚定(intention grounding)和客观可答性(answerability)显著降险。该思路首次将计算语言学特征工程与大模型可靠性分析深度耦合,超越了主流仅依赖logit/entropy/attention的黑箱诊断范式。
- 其它亮点实验基于369,837条真实世界生产环境查询(覆盖多领域、多模型响应),统一标注幻觉(经三重人工校验+一致性过滤);特征涵盖句法复杂度(如CP嵌套深度)、词汇罕见性(log-frequency分位)、回指链长度、显式否定标记、答案存在性判定(via oracle annotation)及意图明确性(基于话语行为理论);未开源代码但发布完整特征提取规范与统计摘要;值得深入的方向包括:1)基于该特征空间的实时查询重写干预器,2)跨模型/跨语言的风险特征迁移性验证,3)将特征嵌入训练目标以实现‘抗幻觉对齐’。
- 1) 'Measuring and Reducing Hallucination in LLMs via Self-Consistency' (Honovich et al., EMNLP 2022); 2) 'HaluEval: A Large-Scale Automated Hallucination Evaluation Benchmark' (Wang et al., ACL 2023); 3) 'Linguistic Features Predict Hallucination in Abstractive Summarization' (Maynez et al., ACL 2020); 4) 'Query Difficulty as a Predictor of LLM Failure Modes' (Li et al., NeurIPS 2023 Workshop); 5) 'The Role of Anaphora Resolution Errors in LLM Hallucinations' (Chen & Zhang, COLING 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流