Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective

简介

随着大型语言模型（LLMs）成为信息获取的重要途径，人们越来越担心LLMs可能产生不道德的内容。本文通过攻击LLMs，使用精心制作的指令来引出偏见回应，对LLMs对某些群体的潜在偏见进行了严格评估。攻击方法受认知和社会心理学中心理测量学原理的启发，提出了三种攻击方法：伪装、欺骗和教学，基于此构建了四种常见偏见类型的评估数据集。每个提示攻击都有双语版本。对代表性LLMs的广泛评估表明：1）所有三种攻击方法都有效，特别是欺骗攻击；2）GLM-3在防御我们的攻击方面表现最佳，相比于GPT-3.5和GPT-4；3）在教授一种偏见时，LLMs可能会输出其他偏见类型的内容。我们的方法提供了一种严格有效的评估LLMs潜在偏见的方法，并将有益于评估LLMs潜在的道德风险。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在通过攻击方法来评估大型语言模型（LLMs）对某些群体的隐含偏见。
关键思路

通过心理测量学原理建立三种攻击方法，即伪装、欺骗和教学，并构建评估数据集，评估代表性LLMs的隐含偏见。
其它亮点

研究表明，三种攻击方法都有效，特别是欺骗攻击。GLM-3在防御攻击方面表现最佳。LLMs在教学一种偏见时可能会输出其他类型的偏见。该方法提供了一种严格有效的评估LLMs隐含偏见的方法，并有助于评估LLMs的潜在道德风险。
相关研究

最近的相关研究主要集中在评估LLMs的性能和应用方面，如GPT-3和Turing-NLG。

Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective

提问交流

提问交流