ADeLe: Predicting and explaining AI performance across tasks

ADeLe是一种新型评估方法，突破传统AI基准仅报告任务性能的局限，通过18项核心能力对模型与任务分别打分，实现能力与需求的直接比对。它构建模型能力画像，精准识别其优势与短板，预测新任务表现准确率达约88%，适用于GPT-4o、Llama-3.1等主流模型。ADeLe将性能差异归因于任务能力需求变化，揭示复杂度上升时模型表现衰减机制，从而解释失败原因并提升可预测性，推动从“黑箱评测”走向可解释、可泛化的智能能力评估。

本专栏通过快照技术转载，仅保留核心内容