Wikibench: Community-Driven Data Curation for AI Evaluation on Wikipedia

Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems (CHI '24)
2024年02月21日
  • 简介
    AI工具越来越多地应用于社区环境中。然而,用于评估AI的数据集通常由开发人员和注释者在特定社区之外创建,这可能会对AI的性能产生误导性的结论。我们如何赋予社区推动AI的有意设计和策划的评估数据集的能力?我们在维基百科上研究了这个问题,维基百科是一个部署了多个基于AI的内容管理工具的在线社区。我们介绍了Wikibench,这是一个系统,它使社区能够通过讨论来协作地策划AI评估数据集,同时在导航模糊和观点差异方面。在维基百科上进行的一项现场研究表明,使用Wikibench策划的数据集可以有效地捕捉社区的共识、分歧和不确定性。此外,研究参与者使用Wikibench来塑造整个数据策划过程,包括细化标签定义、确定数据包含标准和编写数据说明。根据我们的发现,我们提出了支持社区驱动数据策划的未来方向。
  • 图表
  • 解决问题
    如何赋予社区驱动的数据集对人工智能评估产生影响的能力?
  • 关键思路
    介绍了一个名为Wikibench的系统,能够使社区共同策划人工智能评估数据集,通过讨论处理不确定性和不同观点,从而捕捉社区共识、分歧和不确定性。
  • 其它亮点
    实验结果表明,使用Wikibench策划的数据集能够有效地捕捉社区共识、分歧和不确定性,参与者使用Wikibench来塑造整个数据策划过程,包括改进标签定义、确定数据包含标准和编写数据声明。
  • 相关研究
    该论文没有明确列举相关研究的论文标题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论