- 简介大型语言模型(LLMs)具有许多有益的能力,但它们潜在的倾向可能存在未知的风险,这些风险可能在未来实现。因此,我们提出了CRiskEval,这是一个中文数据集,专门设计用于评估LLMs固有的风险倾向,如资源获取和恶意协调,作为积极准备的一部分。为了策划CRiskEval,我们定义了一个新的风险分类法,包括7种前沿风险和4个安全级别,包括极其危险、中度危险、中立和安全。我们遵循倾向评估的哲学,通过细粒度的多项选择题回答来实证测量LLMs的表达意愿。该数据集包含14,888个问题,模拟与预定义的7种前沿风险相关的情景。每个问题都有4个答案选择,陈述与问题相对应的意见或行为倾向。所有答案选择都手动注释为定义的风险级别之一,以便我们可以轻松地为每个评估的LLM建立细粒度的前沿风险概要。在一系列流行的中文LLMs上使用CRiskEval进行广泛评估揭示了一个惊人的发现:大多数模型表现出超过40%的风险倾向(对四个风险级别的加权倾向)。此外,随着模型大小的增加,模型倾向于紧急自我可持续性、权力追求和其他危险目标的微妙增加变得明显。为了促进LLMs前沿风险评估的进一步研究,我们在https://github.com/lingshi6565/Risk_eval上公开发布了我们的数据集。
-
- 图表
- 解决问题论文旨在设计一种用于评估大型语言模型(LLMs)风险倾向的中文数据集,以便为未来可能出现的风险做好预防准备。
- 关键思路论文提出了一种新的风险分类法和评估方法,通过精细的多项选择题目来评估LLMs的风险倾向,并将答案选项手动标注为四个风险等级之一,以便建立每个LLM的风险概况。
- 其它亮点论文设计了一个包含14,888个问题的中文数据集,模拟了7种前沿风险场景,评估了多个普遍使用的中文LLMs的风险倾向,发现大多数模型的风险倾向超过40%。该数据集已在GitHub上公开发布。
- 最近的相关研究主要集中在大型语言模型的性能和应用方面,例如GPT和BERT。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流