Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective

2024年06月20日
  • 简介
    随着大型语言模型(LLMs)成为信息获取的重要途径,人们越来越担心LLMs可能产生不道德的内容。本文通过攻击LLMs,使用精心制作的指令来引出偏见回应,对LLMs对某些群体的潜在偏见进行了严格评估。攻击方法受认知和社会心理学中心理测量学原理的启发,提出了三种攻击方法:伪装、欺骗和教学,基于此构建了四种常见偏见类型的评估数据集。每个提示攻击都有双语版本。对代表性LLMs的广泛评估表明:1)所有三种攻击方法都有效,特别是欺骗攻击;2)GLM-3在防御我们的攻击方面表现最佳,相比于GPT-3.5和GPT-4;3)在教授一种偏见时,LLMs可能会输出其他偏见类型的内容。我们的方法提供了一种严格有效的评估LLMs潜在偏见的方法,并将有益于评估LLMs潜在的道德风险。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在通过攻击方法来评估大型语言模型(LLMs)对某些群体的隐含偏见。
  • 关键思路
    通过心理测量学原理建立三种攻击方法,即伪装、欺骗和教学,并构建评估数据集,评估代表性LLMs的隐含偏见。
  • 其它亮点
    研究表明,三种攻击方法都有效,特别是欺骗攻击。GLM-3在防御攻击方面表现最佳。LLMs在教学一种偏见时可能会输出其他类型的偏见。该方法提供了一种严格有效的评估LLMs隐含偏见的方法,并有助于评估LLMs的潜在道德风险。
  • 相关研究
    最近的相关研究主要集中在评估LLMs的性能和应用方面,如GPT-3和Turing-NLG。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问