- 简介评估论据质量是任何利用论据挖掘系统的关键方面。然而,获得关于论据质量的可靠和一致的注释是一项挑战,因为这通常需要注释者具备特定领域的专业知识。即使是专家,由于这项任务的固有主观性,对论据质量的评估也经常不一致。本文研究了使用最先进的大型语言模型(LLMs)作为论据质量注释者代理的潜力。为了评估LLMs在这方面的能力,我们基于已建立的论据质量维度分类,分析了模型、人类专家和人类新手注释者之间的一致性。我们的研究发现,LLMs可以产生一致的注释,在大多数质量维度上与人类专家有着适度的高度一致性。此外,我们还表明,使用LLMs作为额外的注释者可以显著提高注释者之间的一致性。这些结果表明,LLMs可以作为自动化论据质量评估的有价值工具,从而简化和加速大型论据数据集的评估。
- 图表
- 解决问题使用大型语言模型作为论证质量评估的自动化工具
- 关键思路使用大型语言模型作为论证质量评估的自动化工具,可以提高评估效率和准确性
- 其它亮点通过分析大型语言模型、人类专家和初学者对论证质量维度的评估结果,发现大型语言模型可以产生一致的评估结果,并且可以显著提高评估者之间的一致性。这项研究表明,大型语言模型可以作为自动化论证质量评估的有价值的工具。
- 与该论文相关的研究包括:1. Argument Quality in Persuasion: A Survey; 2. Argument Mining: Foundations and Applications.
沙发等你来抢
去评论
评论
沙发等你来抢