- 简介数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而,数据集通常会包含在构建过程中无意中包含的噪声数据。已经有许多尝试通过人工注释员来纠正这个问题。然而,雇用和管理人工注释员是昂贵和耗时的。作为替代方案,最近的研究正在探索使用大型语言模型(LLMs)进行数据注释。本研究提出了一种案例研究,通过清洗策略扩展了LLM基础数据注释的应用,以提高现有数据集的质量。具体而言,我们利用了链式思维(CoT)和多数表决等方法来模拟人工注释,对用于多文档摘要任务的Multi-News数据集中的不相关文档进行分类。通过我们提出的清洗方法,我们引入了一个增强版的Multi-News+。通过使用LLMs进行数据清洗,我们展示了一种高效且有效的方法,可以改善数据集质量,而不依赖于昂贵的人工注释工作。
- 图表
- 解决问题本文旨在探索使用大型语言模型(LLMs)进行数据注释的方法,以提高数据集的质量,避免昂贵的人工注释成本。
- 关键思路本文提出了一种基于LLMs的数据清洗策略,利用CoT和多数表决等方法模拟人类注释员的行为,对Multi-News数据集中的无关文档进行分类,从而提高数据集的质量。
- 其它亮点本文提出的方法有效地提高了数据集的质量,同时避免了昂贵的人工注释成本。实验设计合理,使用了Multi-News数据集。本文的方法有望在其他领域得到应用。
- 近期的相关研究主要集中在使用LLMs进行数据注释方面,例如《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》。
沙发等你来抢
去评论
评论
沙发等你来抢