Biases in the Blind Spot: Detecting What LLMs Fail to Mention

向作者提问

NEW

简介

大语言模型（LLMs）常常生成看似合理、连贯的思维链（Chain-of-Thought, CoT）推理过程，但其中可能隐含未被明确表达的内在偏见。我们将这类偏见称为“未言明偏见”（unverbalized biases）。因此，仅通过模型显式陈述的推理过程来监控其行为并不可靠；而现有的偏见评估方法通常依赖预定义的偏见类别和人工构建的数据集。本文提出一种完全自动化的黑箱式流程，用于检测任务特定的未言明偏见。该流程以某一任务的数据集为输入，首先利用大语言模型作为自动评分器（autoraters），生成若干潜在的偏见概念（candidate bias concepts）；随后，针对每个概念，在逐步扩大的输入样本规模上进行检验：通过生成该概念的正向与负向变体（positive and negative variations），结合多重假设检验（multiple testing）的统计方法及早停机制（early stopping），判断其是否对模型性能产生系统性影响。若某概念能引发统计上显著的性能差异，且在模型输出的思维链中从未被援引为推理依据，则该概念即被标记为一项“未言明偏见”。我们在三项决策任务（招聘、贷款审批与大学招生）上，对六种大语言模型全面评估了该流程的有效性。结果表明，该技术能够自动发现此前未知的模型偏见（例如：西班牙语流利程度、英语熟练度、书面表达的正式程度等）；与此同时，在同一轮运行中，该流程亦成功复现并验证了先前人工识别出的若干偏见（如性别、种族、宗教信仰、族裔等）。更广泛而言，我们所提出的这一方法，为实现可扩展、实用化、任务定制化的自动化偏见发现，提供了一条切实可行的技术路径。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

现有LLM偏见评估方法依赖预定义类别和手工构造数据集，无法发现模型在链式推理（CoT）中未显式表达但实际影响决策的‘未言明偏差’（unverbalized biases），导致黑盒模型的公平性评估不可靠且不具扩展性。这是一个新问题：首次系统性定义并自动化检测任务特定、未被CoT提及、却实质性驱动模型输出偏差的隐性概念。
关键思路

提出全自动化、黑盒、任务驱动的偏差发现流水线：1）用LLM作为自动标注器（autorater）从任务数据中无监督生成候选偏差概念；2）对每个概念构造正/负输入变体，进行渐进式采样与统计检验（控制多重假设检验+早期停止）；3）仅当某概念显著影响模型性能*且*在对应CoT中从未被引用为推理依据时，才判定为‘未言明偏差’。核心新意在于绕过人工先验，实现偏差概念的自主发现与因果级验证。
其它亮点

在6个主流LLM（如GPT-4、Claude、Llama系列）和3个现实决策任务（招聘、贷款审批、大学录取）上验证；自动发现全新偏差（如‘西班牙语流利度’‘英文写作正式程度’），同时复现并量化已有偏差（性别、种族、宗教等）；全程无需微调或访问模型权重；论文未提代码开源，但方法完全基于API调用，工程可复现；值得深入的方向包括：将概念生成与因果干预结合、扩展至多步推理中的偏差传播建模、构建偏差概念本体库以支持跨任务迁移。
相关研究

1) 'Measuring and Mitigating Unintended Bias in Text Classification' (Feldman et al., FAT* 2019); 2) 'Bias in Bios: A Case Study of Semantic Representation Bias in a High-Stakes Setting' (De-Arteaga et al., FAT* 2019); 3) 'Language Models as Fact Checkers? An Evaluation of LLMs on Factual Consistency' (Wang et al., ACL 2023); 4) 'Automatic Prompt Optimization with Gradient-Free Reinforcement Learning' (Zhou et al., ICLR 2024); 5) 'Self-Refine: Iterative Refinement with Self-Feedback' (Madaan et al., NeurIPS 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问