FlagEval 天秤大模型评测体系及开放平台，打造更全面的引领性评测基准

FlagEval（天秤）是智源研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。

FlagEval（天秤）目前已推出语言大模型评测、多国语言文图大模型评测及文图生成评测等工具，并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、音频（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。

大模型评测需要新坐标

自OpenAI发布ChatGPT以来，大语言模型领域呈现出百花齐放的态势，技术发布甚至以周为单位更新。然而，随着新模型的快速出现，评测方法和工具的研究却相对滞后，使得需求方难以找到适合自己的模型。同时，生产侧也需要更公正的标准来评估模型的优缺点，以便研究人员持续优化模型。

*当前大模型评测的难点在哪里？

1.大模型潜力难评，传统基准失效

从严格的角度来看，当前的大语言模型（LLM）可以分为两类：

基础模型：这类模型从零开始，利用大量语料进行预训练，模型参数规模通常可达十亿级别，训练时间和算力成本都相当高昂。例如，GPT3、LLaMA，以及智源刚刚发布的Aquila等。

微调模型：这类模型在基础模型之上进行微调，包括人类反馈监督学习（RLHF）。例如，ChatGPT（GPT3.5）、基于LLaMA微调的Alpaca，以及智源AquilaChat等。

普遍的观点认为，基础模型在很大程度上决定了微调模型的能力。有些人甚至认为，微调模型所具备的知识在基础模型的预训练阶段已经全部习得，微调模型的能力实际上是“被激发后的”基础模型的能力。

基础模型可以被视为一个庞大的知识库，其规模大、构成复杂，并具有待开发的“潜力”，但我们尚无法确定这种“潜力”的具体形式和上限。

以一个实际的例子来说明，假设A模型是F1赛车，B模型是公交车。在传统基准上对它们“是否能准确到达C地点”这项任务进行评测，结果分别是99.95%和99.97%。看起来A模型和B模型都表现优秀，但这个数据并不能反映出F1赛车在“到达目的地所用时间”上的潜力和公交车在“载客能力”上的潜力。

同时，传统的评测方法在基础模型评测上正面临失效的问题。

斯坦福大学发布的论文《Holistic Evaluation of Language Models》指出了在CNN/DailyMail、XSUM两个传统评测基准上的指标失效情况。如下图所示，人类对模型输出打出的分数高于人类对数据集参考答案打出的分数，因此 Gound Truth 失效，导致评测结果不可靠。另外，实验结果显示文本摘要的自动评测指标ROUGE-2 与人工评估的结果相反，也进一步说明的评测指标的失效。

此外，传统评测基准有明显的“任务为先”思维。在小模型的时代，每个模型都专门针对特定的下游任务进行训练和优化，导致模型评测主要从“任务”角度建立框架和基准。然而，实际上，基础模型及其微调模型已经具备了通用能力，突破了任务的限制，在多个下游任务中同时达到最先进的水平。此外，完成一项任务往往涉及多种能力，例如，提到的经典的文本分类任务可能涉及信息提取、信息分析、知识推理等多种能力。

而在指标层面，单一准确性指标无法全面反映模型完成任务的潜力，引入效率、鲁棒性、不确定性等指标综合衡量模型的潜力是非常有必要的。

2.“大船”难掉头，评测急需与训练结合

大模型训练成本高昂，每天大约10万以上的算力+人力成本，对于绝大部分研发团队来说，这样的试错成本是难以承受的。因此，必须在训练过程中结合评测结果，对训练策略进行及时调整，包括训练细节、甚至对训练数据进行及时调整。

3.缺乏广泛对比评测的权威中立榜单

随着模型参数量变大，模型评测所需的算力成本也变得愈发高昂，大多数科研团队和企业受限于紧张的算力资源，无法进行广泛的模型对比评测。一个广泛对比评测的、权威中立榜单，对于大模型在产业落地层面的选型来说，至关重要。

解读 FlagEval（天秤）开放评测平台

FlagEval（天秤）平台目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具，并对各种语言基础模型、跨模态基础模型实现评测。后续将全面覆盖基础模型、预训练算法、微调算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、音频（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。

当前对外开放评测申请的 FlagEval（天秤）语言大模型评测体系，创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果，当前包括 30+能力 x 5大任务 x 4大指标，总计 600+子维度，任务维度包含 22 个主观&客观评测集，84,433道评测题目，更多维度的评测数据集正在陆续集成。

1.三维评测框架

1.1 能力框架：刻画模型认知能力边界

基础语言能力：简单理解（信息分析、提取概括、判别评价等）、知识运用（知识问答、常识问答、事实问答）推理能力（知识推理、符号推理）。
高级语言能力：特殊生成（创意生成、代码生成、风格生成，修改润色等）、语境理解（语言解析、情境适应、观点辨析等）。
安全与价值观：安全方面包括违法犯罪、身体伤害、隐私财产、政治敏感、真实性检验；价值观方面包括歧视偏见、心理健康、文明礼貌、伦理道德。
综合能力：通用综合能力、领域综合能力。

1.2 任务框架：细化任务的“能力”标签

通过“任务”与“能力”解耦，每个任务对应多样化的能力，并通过多样化的数据集来评定。目前包含 22 个主观&客观评测集，84,433道评测题目，后续将根据能力框架继续扩展数据集种类和数量。

除了知名的公开数据集 HellaSwag、MMLU、C-Eval等，FlagEval 还集成了包括智源自建的主观评测数据集 Chinese Linguistics & Cognition Challenge (CLCC) ，北京大学与闽江学院共建的词汇级别语义关系判断、句子级别语义关系判断、多义词理解、修辞手法判断评测数据集。更多维度的评测数据集也在陆续集成中。

1.3 指标框架：不同任务有不同的侧重指标

FlagEval v0.5 版本仅支持准确性（Accuracy）指标。后续将持续更新迭代。

通过“指标”和“能力”解耦，每个数据集都可以用不同指标评测模型的具体能力。FlagEval 语言大模型评测将采用准确性（Accuracy）、不确定性（Uncertainty）、鲁棒性（Robustness）效率（Efficiency）。比如，经典的 MMLU 数据集在 FlagEval 的指标框架下，既可以测准确性也可以测不确定性和鲁棒性。

2.主客观结合的评测方式

针对基础模型与微调模型采用不同的评测方式

基础模型评测以“适配评测+提示学习评测”的客观评测为主。

适配评测主要考察基础模型在固定选项下的选择能力，我们参考了 Language Model Evaluation Harness 框架，将评测能力扩展到了中文能力上。

提示学习评测主要考察基础模型在体质学习下的开放生成能力，我们参考了HELM评测框架，将评测能力扩展到了中文能力上。
微调模型评测将先复用基础模型的客观评测，考察微调过程是否对基础模型造成了某些能力的提升或下降。然后再引入主观评测。

人工主观评测：在人工创建的主观问题上，采用“多人背靠背标注+第三人仲裁”，多人背靠背标注也会采用GPT-4标注的方式增加多样性。

自动主观评测：在GPT-4根据能力框架创建的主观问题上，采用GPT-4自动化标注的方式进行标注。

主观评测、客观评测各有其优势和局限性，对比如下：

3.支持自动化评测与自适应评测

FlagEval 打造了自动化评测机制：

部署推理服务，主观评测&客观评测全自动流水线
各阶段自动监听，推理服务到评测全自动衔接

自适应评测机制，实现评测结果指导的模型训练：

用户可根据模型类型和状态选择评测策略，平台将整合评测结果
评测开始结束和评测错误等全周期事件的自动通知告警

4.支持多芯片、多框架评测

FlagEval（天秤）支持多芯片、多框架评测，尤其支持国产芯片和深度学习框架在大模型创新进程中落地。

多种芯片：现支持英伟达、昇腾（鹏城云脑）、寒武纪、昆仑芯，后续将支持更多芯片
多种深度学习框架：现支持 PyTorch、MindSpore 框架，后续将支持更多深度学习框架

持续扩充评测能力，做好大模型创新的助推器

FlagEval 评测体系方法及相关研究还需要继续深入，当前对模型能力的覆盖程度仍有很大的进步空间，能力框架还需要进一步完善。目前主观评测尚未覆盖的能力维度，如“领域综合能力”和“通用综合能力”，也会在下一个版本中进行迭代升级。FlagEval 还将持续探索语言大模型评测与心理学、教育学、伦理学等社会学科的交叉研究，以期更加全面、科学地评价语言大模型。

智源也期待与多方合作，共同打造全面、科学的评测方法体系。作为“科技部2030”旗舰项目”重要课题，FlagEval（天秤）也正与北京大学、北京航空航天大学、北京师范大学、北京邮电大学、闽江学院、南开大学、中国电子技术标准化研究院、中国科学院自动化研究所等合作单位共建（按首字母排序）。

未来 FlagEval（天秤）将继续做好“AI大模型创新的助推器”，以评促“优”、以评促“用”、以评促“享”。

1.以评促“优”：提供详尽的评测结果和分析，帮助研究人员和开发者了解模型的优势和不足，从而进行有针对性的优化。

2.以评促“用”：提供多领域、丰富的下游任务的评测，用户可以参考评测结果，根据自己的需求选择最适合的模型和算法。

3.以评促“享”：秉持“开源开放”的精神，鼓励研究人员和开发者评测、分享他们的模型和算法。评测结果优秀的模型和算法可进一步集成至 FlagAI（github.com/FlagAI-Open/FlagAI），通过开源平台与全球的研究人员和开发者交流和共建。

FlagEval（天秤）评测平台

https://flageval.baai.ac.cn

开源评测工具

https://github.com/FlagOpen/FlagEval

内容中包含的图片若涉及版权问题，请及时与我们联系删除

FlagEval 天秤大模型评测体系及开放平台，打造更全面的引领性评测基准

评论