Multi-News+: Cost-efficient Dataset Cleansing via LLM-based Data Annotation

2024年04月15日
  • 简介
    数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而,数据集通常会包含在构建过程中无意中包含的噪声数据。已经有许多尝试通过人工注释员来纠正这个问题。然而,雇用和管理人工注释员是昂贵和耗时的。作为替代方案,最近的研究正在探索使用大型语言模型(LLMs)进行数据注释。本研究提出了一种案例研究,通过清洗策略扩展了LLM基础数据注释的应用,以提高现有数据集的质量。具体而言,我们利用了链式思维(CoT)和多数表决等方法来模拟人工注释,对用于多文档摘要任务的Multi-News数据集中的不相关文档进行分类。通过我们提出的清洗方法,我们引入了一个增强版的Multi-News+。通过使用LLMs进行数据清洗,我们展示了一种高效且有效的方法,可以改善数据集质量,而不依赖于昂贵的人工注释工作。
  • 图表
  • 解决问题
    本文旨在探索使用大型语言模型(LLMs)进行数据注释的方法,以提高数据集的质量,避免昂贵的人工注释成本。
  • 关键思路
    本文提出了一种基于LLMs的数据清洗策略,利用CoT和多数表决等方法模拟人类注释员的行为,对Multi-News数据集中的无关文档进行分类,从而提高数据集的质量。
  • 其它亮点
    本文提出的方法有效地提高了数据集的质量,同时避免了昂贵的人工注释成本。实验设计合理,使用了Multi-News数据集。本文的方法有望在其他领域得到应用。
  • 相关研究
    近期的相关研究主要集中在使用LLMs进行数据注释方面,例如《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论