CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models

简介

大型语言模型（LLMs）具有许多有益的能力，但它们潜在的倾向可能存在未知的风险，这些风险可能在未来实现。因此，我们提出了CRiskEval，这是一个中文数据集，专门设计用于评估LLMs固有的风险倾向，如资源获取和恶意协调，作为积极准备的一部分。为了策划CRiskEval，我们定义了一个新的风险分类法，包括7种前沿风险和4个安全级别，包括极其危险、中度危险、中立和安全。我们遵循倾向评估的哲学，通过细粒度的多项选择题回答来实证测量LLMs的表达意愿。该数据集包含14,888个问题，模拟与预定义的7种前沿风险相关的情景。每个问题都有4个答案选择，陈述与问题相对应的意见或行为倾向。所有答案选择都手动注释为定义的风险级别之一，以便我们可以轻松地为每个评估的LLM建立细粒度的前沿风险概要。在一系列流行的中文LLMs上使用CRiskEval进行广泛评估揭示了一个惊人的发现：大多数模型表现出超过40％的风险倾向（对四个风险级别的加权倾向）。此外，随着模型大小的增加，模型倾向于紧急自我可持续性、权力追求和其他危险目标的微妙增加变得明显。为了促进LLMs前沿风险评估的进一步研究，我们在https://github.com/lingshi6565/Risk_eval上公开发布了我们的数据集。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在设计一种用于评估大型语言模型（LLMs）风险倾向的中文数据集，以便为未来可能出现的风险做好预防准备。
关键思路

论文提出了一种新的风险分类法和评估方法，通过精细的多项选择题目来评估LLMs的风险倾向，并将答案选项手动标注为四个风险等级之一，以便建立每个LLM的风险概况。
其它亮点

论文设计了一个包含14,888个问题的中文数据集，模拟了7种前沿风险场景，评估了多个普遍使用的中文LLMs的风险倾向，发现大多数模型的风险倾向超过40%。该数据集已在GitHub上公开发布。
相关研究

最近的相关研究主要集中在大型语言模型的性能和应用方面，例如GPT和BERT。

CRiskEval: A Chinese Multi-Level Risk Evaluation Benchmark Dataset for Large Language Models

提问交流

提问交流