- 简介在自然语言处理(NLP)迅速发展的领域中,使用大型语言模型(LLMs)自动标注社交媒体帖子文本已引起了极大的关注。尽管开发像ChatGPT这样的LLMs取得了令人瞩目的创新成果,但它们作为标注工具的有效性和准确性还不为人所知。本文分析了8个开源和专有LLMs用于标注社交媒体帖子表达的立场的性能,并将它们的性能与人类标注者(即众包)的判断进行基准测试。此外,我们还调查了LLMs可能与人类判断不一致的情况。我们研究的一个重要发现是,表达立场的文本的明确性在LLMs的立场判断如何与人类相匹配方面起着关键作用。我们认为,当人类标注者表现良好时,LLMs表现也很好,而当LLMs失败时,通常对应于人类标注者难以达成一致的情况。我们最后提出了综合方法的建议,该方法结合了人类专业知识的精确性和LLMs预测的可扩展性。该研究强调了提高自动立场检测的准确性和全面性的重要性,旨在推动这些技术更高效、更公正地分析社交媒体。
- 图表
- 解决问题本文分析了八种开源和专有的大型语言模型在社交媒体帖子中注释表达态度时的表现,并将其与人类注释者的判断进行基准测试。
- 关键思路本文发现,文本表达立场的明确程度在大型语言模型的判断是否与人类判断一致方面起着至关重要的作用。
- 其它亮点实验使用了众包数据集进行基准测试,并提供了八种大型语言模型的表现比较。本文建议综合利用人类专业知识的精确性和大型语言模型的可扩展性。
- 该领域的相关研究还包括:“A Survey on Stance Detection Techniques in Social Media”(社交媒体中的立场检测技术综述)和“Stance Detection in Social Media: State-of-the-art Review”(社交媒体中的立场检测:现状综述)。
沙发等你来抢
去评论
评论
沙发等你来抢