- 简介AI工具越来越多地应用于社区环境中。然而,用于评估AI的数据集通常由开发人员和注释者在特定社区之外创建,这可能会对AI的性能产生误导性的结论。我们如何赋予社区推动AI的有意设计和策划的评估数据集的能力?我们在维基百科上研究了这个问题,维基百科是一个部署了多个基于AI的内容管理工具的在线社区。我们介绍了Wikibench,这是一个系统,它使社区能够通过讨论来协作地策划AI评估数据集,同时在导航模糊和观点差异方面。在维基百科上进行的一项现场研究表明,使用Wikibench策划的数据集可以有效地捕捉社区的共识、分歧和不确定性。此外,研究参与者使用Wikibench来塑造整个数据策划过程,包括细化标签定义、确定数据包含标准和编写数据说明。根据我们的发现,我们提出了支持社区驱动数据策划的未来方向。
- 图表
- 解决问题如何赋予社区驱动的数据集对人工智能评估产生影响的能力?
- 关键思路介绍了一个名为Wikibench的系统,能够使社区共同策划人工智能评估数据集,通过讨论处理不确定性和不同观点,从而捕捉社区共识、分歧和不确定性。
- 其它亮点实验结果表明,使用Wikibench策划的数据集能够有效地捕捉社区共识、分歧和不确定性,参与者使用Wikibench来塑造整个数据策划过程,包括改进标签定义、确定数据包含标准和编写数据声明。
- 该论文没有明确列举相关研究的论文标题。
沙发等你来抢
去评论
评论
沙发等你来抢