评估LLM和文本到图像模型是一项计算密集的任务,往往被忽视。高效的评估对于理解这些模型的多样化能力以及在越来越多的新模型和基准测试之间进行比较至关重要。为了解决这个问题,我们引入了SubLIME,这是一个数据有效的评估框架,采用自适应采样技术,如聚类和基于质量的方法,创建基准测试的代表性子集。我们的方法确保与完整数据集相比具有统计对齐的模型排名,这一点可以通过高皮尔逊相关系数得到证明。在六个NLP基准测试中的实证分析表明:(1)基于质量的采样始终以10%的采样率(例如Quality SE和Quality CPD)与完整数据集具有强相关性(0.85至0.95);(2)聚类方法在特定基准测试中表现优异,如MMLU;(3)没有单一方法在所有度量标准上普遍优于其他方法。扩展这个框架,我们利用HEIM排行榜,涵盖了25个文本到图像模型和17个不同的基准测试。SubLIME动态选择每个基准测试的最佳技术,显著降低了评估成本,同时保持了排名完整性和得分分布。值得注意的是,对于像MMLU这样的基准测试,最小采样率为1%也是有效的。此外,我们证明了采用基于难度的采样来针对更具挑战性的基准测试部分,可以增强模型之间的区分度,使得得分分布更广泛。我们还结合语义搜索、工具使用和GPT-4审查,识别出特定LLM类别(如编码基准测试)中基准测试之间的冗余,从而进一步减少了维持目标排名所需的样本数量。总的来说,SubLIME为LLM和文本到图像模型的强大评估提供了一个多功能和经济高效的解决方案。
 
提问交流