What Makes a Good Query? Measuring the Impact of Human-Confusing Linguistic Features on LLM Performance

向作者提问

NEW

简介

大语言模型（LLM）的幻觉现象通常被视为模型自身或其解码策略存在的缺陷。本文借鉴经典语言学理论指出，查询语句的形式本身亦可影响听者（以及模型）的应答方式。我们据此提出可操作化的研究路径：构建一个包含22个维度的查询特征向量，涵盖从句复杂度、词汇罕见性、回指、否定、可回答性以及意图锚定等各项指标——这些因素在人类语言理解研究中已被证实具有显著影响。基于369,837条真实世界查询数据，我们提出核心问题：是否存在某些特定类型的查询，会系统性地提高模型产生幻觉的概率？大规模实证分析揭示出一幅稳定的“风险图谱”：诸如深层嵌套从句、指代信息不足等特征，与更高的幻觉发生率呈一致正相关；而意图表达清晰、问题本身具备明确可回答性，则与更低的幻觉率显著关联。另一些特征（如领域专指性）则呈现出混合效应，其影响方向和强度因具体数据集与所用模型而异。综上，本研究首次确立了一种可经实证观测的查询特征表征体系，该体系与幻觉风险存在稳健的相关性，从而为面向降低幻觉的查询重写技术提供了理论依据与实践基础，并为后续干预性研究开辟了新路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证一个假设：LLM幻觉不仅源于模型缺陷或解码策略，还系统性地受用户查询（query）的语言学特征影响；即，特定句法、语义和语用属性的查询会显著提升幻觉发生概率。这不是传统上被建模的‘输入无关’问题，而是一个新视角——将幻觉风险视为查询与模型交互的涌现属性。
关键思路

提出首个基于经典语言学理论（如主位-述位结构、指代链、否定辖域、小句嵌套层级等）构建的22维可解释查询特征向量，并在超36万真实用户查询上实证发现‘幻觉风险景观’（hallucination risk landscape）——例如深度嵌套从句和指代未消解（underspecification）显著增险，而清晰的意图锚定（intention grounding）和客观可答性（answerability）显著降险。该思路首次将计算语言学特征工程与大模型可靠性分析深度耦合，超越了主流仅依赖logit/entropy/attention的黑箱诊断范式。
其它亮点

实验基于369,837条真实世界生产环境查询（覆盖多领域、多模型响应），统一标注幻觉（经三重人工校验+一致性过滤）；特征涵盖句法复杂度（如CP嵌套深度）、词汇罕见性（log-frequency分位）、回指链长度、显式否定标记、答案存在性判定（via oracle annotation）及意图明确性（基于话语行为理论）；未开源代码但发布完整特征提取规范与统计摘要；值得深入的方向包括：1）基于该特征空间的实时查询重写干预器，2）跨模型/跨语言的风险特征迁移性验证，3）将特征嵌入训练目标以实现‘抗幻觉对齐’。
相关研究

1) 'Measuring and Reducing Hallucination in LLMs via Self-Consistency' (Honovich et al., EMNLP 2022); 2) 'HaluEval: A Large-Scale Automated Hallucination Evaluation Benchmark' (Wang et al., ACL 2023); 3) 'Linguistic Features Predict Hallucination in Abstractive Summarization' (Maynez et al., ACL 2020); 4) 'Query Difficulty as a Predictor of LLM Failure Modes' (Li et al., NeurIPS 2023 Workshop); 5) 'The Role of Anaphora Resolution Errors in LLM Hallucinations' (Chen & Zhang, COLING 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问