Biases in the Blind Spot: Detecting What LLMs Fail to Mention

2026年02月10日
  • 简介
    大语言模型(LLMs)常常提供看似合理、连贯的思维链(Chain-of-Thought, CoT)推理过程,但其中可能隐含未被言明的内在偏见。我们将这类偏见称为“未言明偏见”(unverbalized biases)。因此,仅通过模型所陈述的推理过程来监控其行为并不可靠;而现有的偏见评估方法通常依赖于预定义的偏见类别以及人工构建的数据集。本文提出一种完全自动化的黑箱式流程,用于检测特定任务场景下的未言明偏见。该流程以某一任务的数据集为输入,首先利用大语言模型作为自动评分器(autoraters),生成一系列潜在的偏见概念候选;随后,针对每个候选概念,在逐步扩大的输入样本规模上进行检验:通过生成体现该概念的正向变体与负向变体,并结合多重假设检验的统计方法及早停机制,判断其是否具有统计显著性。若某概念能引发模型性能的统计显著差异,且在模型自身的思维链推理中从未被援引为决策依据,则该概念即被标记为一项“未言明偏见”。我们在六种大语言模型上、针对三项决策任务(招聘、贷款审批与大学录取)对该流程进行了系统评估。结果表明,本方法能够自动发现此前未知的模型偏见(例如:西班牙语流利程度、英语熟练度、书面表达的正式程度等);同时,在同一轮运行中,亦成功复现并验证了先前研究通过人工方式识别出的若干已知偏见(如性别、种族、宗教信仰、族裔等)。更广泛而言,我们所提出的这一方法,为实现任务特异性的自动化偏见发现,提供了一条切实可行、可规模化推广的技术路径。
  • 作者讲解
  • 图表
  • 解决问题
    现有LLM偏见检测方法依赖人工定义的偏见类别和显式推理(如CoT)进行监控,但模型可能在未言明的内部表征中隐含任务相关偏见('unverbalized biases'),导致基于显式输出的评估不可靠;该问题尚未被系统性建模为可自动发现、统计验证的黑盒检测任务。
  • 关键思路
    提出首个全自动、黑盒、任务驱动的偏见发现流水线:无需预定义偏见维度,利用LLM作为自动标注器生成候选概念,通过可控文本扰动(正/负变体)、渐进采样、多重假设检验与早期停止,统计识别那些显著影响模型决策却从不在其链式推理中被提及的概念——即'未言明偏见'。
  • 其它亮点
    在6个主流LLMs(如GPT-4、Claude、Llama3)和3个高影响力决策任务(招聘、贷款审批、大学录取)上完成端到端验证;自动发现新偏见(如西班牙语流利度、英文写作正式程度),同时复现并量化已有偏见(性别、种族等);全程无需人工标注或领域知识;暂未开源代码(论文未提及),但流程完全基于API调用与标准统计检验(BH校正、t检验),具备强可复现性;未来方向包括扩展至多模态、引入因果干预验证、构建偏见概念本体库。
  • 相关研究
    1. 'Measuring and Reducing Unintended Bias in Language Models' (NIPS 2022); 2. 'Bias in, Bias out: A Survey of Language Model Bias Evaluation Methods' (ACL 2023); 3. 'Chain-of-Thought Prompting Elicits Reasoning in Large Language Models' (NeurIPS 2022); 4. 'Automatic Detection of Social Biases in Large Language Models via Causal Mediation Analysis' (ICML 2024); 5. 'Red-Teaming Language Models with Language Models' (arXiv 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问