Can Unconfident LLM Annotations Be Used for Confident Conclusions?

简介

大型语言模型（LLMs）在各种任务中表现出与人类评分者高度一致的水平，展示了缓解人类数据收集挑战的潜力。在计算社会科学（CSS）中，研究人员越来越多地利用LLM注释来补充缓慢而昂贵的人类注释。尽管如此，收集和使用LLM注释的指南，而不影响下游结论的有效性，仍然有限。我们引入了置信度驱动的推理方法：该方法结合LLM注释和LLM置信度指标，有策略地选择应该收集哪些人类注释，旨在产生准确的统计估计和可证明的置信区间，同时减少所需的人类注释数量。我们的方法具有防范质量差的LLM注释的保障，确保结论既有效，而且不会比仅依赖于人类注释时更不准确。我们在三个CSS设置（文本礼貌度、立场和偏见）的统计估计任务中展示了置信度驱动的推理方法相对于基线的有效性，每个设置中人类注释数量减少了超过25％。虽然我们使用CSS设置进行演示，但置信度驱动的推理方法可以用于估计广泛的NLP问题的大多数标准量。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何使用大型语言模型的注释来减少人工注释的数量，同时确保下游结论的准确性和可靠性？
关键思路

提出了一种名为“Confidence-Driven Inference”的方法，通过结合大型语言模型的注释和置信度指标，有选择地选择需要收集的人工注释，从而在减少人工注释数量的同时，保证了结论的准确性和可靠性。
其它亮点

实验表明，与基线相比，在三个计算社会科学设置中，使用“Confidence-Driven Inference”方法可以将需要的人工注释数量减少超过25%。该方法还提供了防止低质量大型语言模型注释的保障，可以用于估计大多数标准数量。
相关研究

与该论文相关的研究包括使用大型语言模型进行注释的其他方法，以及使用人工注释的传统方法。

Can Unconfident LLM Annotations Be Used for Confident Conclusions?

提问交流

提问交流