Building better AI benchmarks: How many raters are enough?

本文提出一种基于“黄金标准”人工评分数据的机器学习模型评估框架，旨在优化每个项目所分配的评分项数量与每位评分者所评项目数之间的权衡，以构建高可复现、能准确反映人类主观分歧的AI基准。文章强调，可复现性是ML研究信任与协作的基础，但当前AI基准常忽视人类评分间的天然分歧，将其简单视为噪声或忽略，导致评估失真。这种忽略源于对人类认知多样性缺乏系统建模，也受限于人工标注预算约束。该框架为平衡标注成本与评估信度提供方法论指导，推动更稳健、公平、可复现的AI评估实践。（200字）

本专栏通过快照技术转载，仅保留核心内容