- 简介社会科学家在编码非结构化的政治文本时,几乎普遍使用编码手册——这些手册规范了概念操作和注释流程。最近,为了降低手动注释成本,政治学家开始使用生成式大型语言模型(LLMs)来标记和分析文本数据。然而,以前使用LLMs进行分类的工作隐含地依赖于普遍标签假设——只使用一个类标签或最小定义以及LLM在预训练过程中归纳学习到的信息就可以正确分类文档。相反,我们认为关心有效测量的政治学家应该采用编码手册-概念标签假设——LLM应该遵循编码手册中提供的概念/标签的定义和排除标准。在这项工作中,我们收集和策划了三个政治学数据集及其原始编码手册,并进行了一系列实验,以了解LLMs是否遵守编码手册的说明,重写编码手册是否可以提高性能,以及在编码手册-文档-标签元组上调整LLMs的指令是否可以提高性能。使用Mistral 7B Instruct作为我们的LLM,我们发现重构原始编码手册可以在零-shot性能方面获得适度的增益,但该模型仍然难以遵守编码手册的约束条件。乐观地说,对我们的数据集之一上的Mistral进行指令调整可以获得显著的零-shot推理性能提升(0.76与0.53的微F1)。我们希望我们对编码手册特定任务、假设和指令调整流程的概念化以及我们的半结构化LLM编码手册格式将有助于政治学家轻松适应LLM时代。
-
- 图表
- 解决问题本文旨在探讨如何在使用大型语言模型进行文本分类时,遵循构造标签假设,即模型应遵循代码书提供的构造/标签的定义和排除标准,而不是仅仅依靠模型的预训练学习。作者通过实验验证了这种方法的有效性。
- 关键思路论文提出了一种基于构造标签假设的方法,即使用代码书提供的构造/标签的定义和排除标准来指导大型语言模型的分类。通过实验验证了这种方法的有效性。
- 其它亮点作者收集和整理了三个政治学数据集及其原始代码书,并进行了一系列实验,以了解LLM是否遵循代码书的指令,重写代码书是否会改善性能,以及在代码书-文档-标签元组上进行指令调整的LLM是否比零-shot分类性能更好。使用Mistral 7B Instruct作为LLM,实验结果表明,重构原始代码书可以在零-shot性能上获得适度的提高,但模型仍然难以符合代码书的约束条件。然而,在其中一个数据集上进行指令调整的LLM相比零-shot推断获得了显著的提高(0.76与0.53的微F1)。作者提出的代码书特定任务、假设和指令调整流程以及半结构化LLM代码书格式有助于政治学家适应LLM时代。
- 最近的相关研究集中在使用大型语言模型进行文本分类方面,但大多数研究都依赖于通用标签假设。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流