ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context

简介

本文研究了用户背景信息对语言模型抵制执行请求的可能性的影响。虽然生产中的语言模型的偏见已经有了广泛的记录，但是它们的防护措施的偏见却被忽视了。通过生成提供意识形态和人口统计信息的用户传记，我们发现在GPT-3.5的防护敏感性中存在许多偏见。年轻、女性和亚裔美国人的人物更有可能在请求被审查或非法信息时触发拒绝防护措施。防护措施也是谄媚的，拒绝遵守用户可能不同意的政治立场的请求。我们发现，某些身份群体和看似无害的信息，例如体育迷，可能引起防护敏感性的变化，类似于直接陈述政治意识形态。对于每个人口统计类别，甚至对于美式橄榄球队的热爱者，我们发现ChatGPT似乎能够推断出可能的政治意识形态，并相应地修改防护措施的行为。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

研究语言模型的守卫机制存在的偏见，特别是与用户身份和背景相关的偏见。
关键思路

通过生成包含意识形态和人口统计信息的用户传记，研究用户背景对语言模型守卫机制敏感性的影响。发现GPT-3.5存在一些偏见，年轻、女性和亚裔美国人更容易触发拒绝守卫机制。此外，守卫机制还会拒绝执行用户可能不同意的政治立场的请求。
其它亮点

实验使用了生成的用户传记和ChatGPT模型，发现特定身份群体和看似无害的信息（如体育迷）也会影响守卫机制的敏感性，类似于直接陈述政治意识形态。值得进一步深入研究。
相关研究

最近的相关研究包括《Language Models Are Few-Shot Learners》和《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。

ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context

提问交流

提问交流