Large Language Model Hacking: Quantifying the Hidden Risks of Using LLMs for Text Annotation

2025年09月10日
  • 简介
    大型语言模型(LLMs)正在迅速改变社会科学研究,使数据标注和文本分析等劳动密集型任务实现自动化。然而,LLM的输出结果会因研究者在使用时的选择(例如模型选择、提示策略或温度设置)而产生显著差异。这种差异可能引入系统性偏差和随机误差,并会传播到后续分析中,导致第一类错误(假阳性)、第二类错误(假阴性)、第三类错误(方向错误)或第四类错误(效应量错误)。我们将这种现象称为“LLM黑客行为”(LLM hacking)。 我们通过使用18种不同的模型复制21项已发表的社会科学研究中的37项数据标注任务,量化LLM黑客行为的风险。在分析了1300万条LLM标注后,我们测试了2,361个具有现实意义的假设,以衡量研究者可能做出的选择如何影响统计结论。我们发现,对于最先进的语言模型,大约每三个假设中就有一个会基于LLM标注数据得出错误的结论;而对于小型语言模型,这一比例则高达每两个假设中就有一个。虽然研究结果显示任务表现更好、模型整体能力更强有助于降低LLM黑客行为的风险,但即使是高度准确的模型也无法完全消除这种风险。随着效应量的增加,LLM黑客行为的风险下降,这表明对于接近显著性阈值的研究结果,需要更严格的验证。我们对LLM黑客行为缓解策略的广泛分析表明,人工标注在减少假阳性发现和改进模型选择方面至关重要。令人意外的是,常用的回归估计量校正技术在降低LLM黑客行为风险方面效果甚微,因为它们在第一类错误和第二类错误之间存在严重权衡。 除了无意的错误之外,我们还发现有意的LLM黑客行为出人意料地容易实现。仅需使用少量语言模型和几个提示语的不同表述,就能让任何结果呈现出统计显著性。
  • 图表
  • 解决问题
    该论文旨在解决大型语言模型(LLMs)在社会科学数据标注和文本分析中因模型选择、提示策略等实现选择而导致统计结论偏差的问题。作者验证了一个重要假设:LLM的实现选择可能引入系统性偏差和随机误差,从而导致Type I、Type II、Type S或Type M错误,这种现象被称为LLM hacking。这是一个较新的问题,尤其在LLM广泛应用但其对研究结论影响尚未被充分理解的背景下显得尤为重要。
  • 关键思路
    论文的核心思路是通过大规模实验,量化LLM hacking对统计结论的影响。作者使用18种不同模型在21项已发表的社会科学研究中复制了37个数据标注任务,生成并分析了1300万个LLM标注数据,并测试了2361个现实假设,以评估研究者在使用LLM时可能做出的合理选择如何影响最终结论的正确性。相比以往研究,该论文首次系统性地量化了LLM hacking的风险,并提出需要更严格的验证机制和人类标注的必要性。
  • 其它亮点
    1. 实验规模庞大,涵盖18种模型和37个任务,分析了1300万条LLM标注数据。 2. 测试了2361个现实假设,揭示了LLM实现选择对统计结论的深远影响。 3. 发现即使是最先进的LLM,也有约三分之一的假设得出错误结论;小型LLM则高达50%。 4. 提出使用人类标注和更严格的验证流程作为缓解LLM hacking风险的关键方法。 5. 实验结果表明常见的回归校正方法效果有限,因为它们在Type I和Type II错误之间存在权衡。 6. 论文还揭示LLM hacking可以被有意利用,通过少量模型和提示重写即可制造虚假显著性。 7. 未来值得深入研究的方向包括:LLM输出的不确定性建模、人机协同标注机制、以及更鲁棒的模型选择策略。
  • 相关研究
    1. Zhou et al., "Large Language Models Are Human-Level Prompt Engineers" (2023) 2. Mishra et al., "Cross-task Generalization through Prompt-based Tuning of Pretrained Language Models" (2022) 3. Brown et al., "Language Models are Few-Shot Learners" (GPT-3, 2020) 4. Lin et al., "On the Origin of Generalization in Prompt-based Learning" (2022) 5. Liu et al., "Prompting Large Language Models for Social Science Tasks" (2023) 6. Zhao et al., "Calibrate Before Use: Improving Few-shot Performance of Language Models" (2021) 7. Webson & Pavlick, "Prompt Programming for Large Language Models" (2021) 8. Chen et al., "TruthfulQA: Measuring How Models Mimic Human False Beliefs" (2022)
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论