- 简介现代人工智能(AI)的研究和发展中,数据集的质量越来越关键。尽管现在有许多开放的数据集平台,但在广泛应用于AI的数据集中,数据质量问题仍然普遍存在,如文档不足、注释不准确和伦理问题。此外,这些问题通常是微妙的,很难被基于规则的脚本检测出来,需要数据集用户或维护者进行昂贵的手动识别和验证。随着大型语言模型(LLM)能力的不断增强,使用LLM代理简化数据集的策划是有前途的。本文提出了一个数据集策划代理基准(DCA-Bench),作为实现这一目标的初始步骤,用于衡量LLM代理检测隐藏数据集质量问题的能力。具体而言,我们从八个开放的数据集平台收集了多样化的现实世界的数据集质量问题作为测试床。此外,为了建立一个自动化的管道来评估LLM代理的成功,需要对代理输出进行细致的理解,我们使用另一个LLM代理实现了一个专用的评估器。我们证明,基于LLM的评估器在实践中与人类评估的结果很好地吻合,从而在提出的基准测试中进行可靠的自动评估。我们进一步在提出的基准测试上对几个基线LLM代理进行实验,并展示了任务的复杂性,表明将LLM应用于现实世界的数据集策划仍需要进一步深入探索和创新。最后,所提出的基准测试还可以作为衡量LLM在问题发现方面的能力而不仅仅是问题解决的测试床。基准测试套件可在\url{https://github.com/TRAIS-Lab/dca-bench}上找到。
- 图表
- 解决问题论文旨在解决现代人工智能研究和开发中数据集质量问题,提出使用大型语言模型代理来优化数据集的筛选和维护。同时,论文还试图建立一个自动化的数据集筛选和评估流程。
- 关键思路使用大型语言模型代理来检测数据集中的隐藏质量问题,并通过另一个大型语言模型代理来建立自动化的评估流程。
- 其它亮点论文收集了来自8个开放数据集平台的多样化真实数据集质量问题作为测试基准,并使用大型语言模型代理来检测和解决这些问题。论文还实现了一个专门的评估器,通过另一个大型语言模型代理来评估代理的性能,并证明该评估器与人类评估的一致性。实验结果表明,使用大型语言模型代理来解决数据集质量问题是一个复杂的任务,需要进一步深入研究和创新。
- 在这个领域中,最近的相关研究包括:1)《A Survey of Public Datasets for Computer Vision Tasks》;2)《Data Curation with Deep Learning: A Survey》;3)《Towards Automated Data Curation: A Recommender-System Approach》。
沙发等你来抢
去评论
评论
沙发等你来抢