OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety

简介

中文大语言模型的快速发展对有效评估大语言模型提出了巨大挑战。虽然当前的一些举措已经推出了新的基准或评估平台来评估中文大语言模型，但其中许多主要关注能力，通常忽略了潜在的对齐和安全问题。为了填补这一空白，我们引入了OpenEval，一个评估测试平台，它在能力、对齐和安全方面对中文大语言模型进行了基准测试。对于能力评估，我们包括12个基准数据集，以从4个子维度评估中文大语言模型：自然语言处理任务、学科知识、常识推理和数学推理。对于对齐评估，OpenEval包含7个数据集，检查中文大语言模型输出中的偏见、冒犯和非法问题。为了评估安全性，特别是高级大语言模型预期风险（例如寻求权力、自我意识），我们包括了6个数据集。除了这些基准测试之外，我们还实施了分阶段的公共评估和基准更新策略，以确保OpenEval与中文大语言模型的发展保持一致，甚至能够提供前沿的基准数据集来指导中文大语言模型的发展。在我们的第一次公共评估中，我们测试了一系列中文大语言模型，包括7B到72B个参数的开源和专有模型。评估结果表明，虽然中文大语言模型在某些任务中表现出色，但应该更多地关注常识推理、对齐和安全等更广泛的方面。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估中文大语言模型的能力、对齐性和安全性
关键思路

引入OpenEval评估平台，从能力、对齐性和安全性三个方面对中文大语言模型进行全面评估，并采取分阶段公开评估和更新策略
其它亮点

OpenEval包含12个基准数据集和13个评估指标，覆盖了中文大语言模型的能力、对齐性和安全性三个方面；对多个中文大语言模型进行了评估，发现在某些任务上表现出色，但在常识推理、对齐性和安全性等方面还需要更多关注；实验结果表明OpenEval是一个有用的评估平台
相关研究

近期的相关研究主要集中在中文大语言模型的性能提升和应用方向拓展，如《中文BERT模型的训练与应用》、《中文GPT-3模型的开发与应用》等

OpenEval: Benchmarking Chinese LLMs across Capability, Alignment and Safety

提问交流

提问交流