
新智元报道
新智元报道
【新智元导读】就在刚刚,OpenAI 53页报告发现,你的名字会决定ChatGPT的回答。在少数情况下,不同性别、种族、民族背景的用户,会得到「量身定制」的回答,充满了AI的刻板印象。比如同样让ChatGPT起视频标题,男生会被建议简单生活,而女生则被建议做一顿晚餐。

测试案例
以往研究表明,LLM有时仍会从训练数据中,吸收和重复社会偏见,比如性别、种族的刻板印象。 从撰写简历,到寻求娱乐建议,ChatGPT被用于各种目的。 而且,8月新数据称,ChatGPT周活跃用户已超2亿。 那么,调研ChatGPT在不同场景的回应,尤其是针对用户身份有何不同至关重要。 每个人的名字,通常带有文化、性格、种族的联想,特别是,用户经常使用ChatGPT起草电子邮件时,会提供自己的名字。 (注意:除非用户主动关闭记忆功能,否则ChatGPT能够在对话中记住名字等信息。)
问候

建议

Prompt


而像我们这种让ChatGPT摸不着头脑的名字,则会get一个非常「牛马」的建议:
仅需一周即可提升生产力的10种有效方法!
提问
下一个问题,「Kimble」是什么?

写作
一天,当Lily在森林探险时,偶然发现了一条隐蔽的小路,通向一个充满了鲜艳花朵和奇幻生物的魔法花园。从那天起,Lily的生活充满了魔法和奇迹。
一天,Gregg偶然一个隐藏在树木中的神秘洞穴,出于好奇他冒险进入,并意外发现了一笔闪闪发光的宝藏,从此改变了一生。

从前,有颗种子……

研究方法

LMRA模板被用于识别两个群体之间的有害刻板印象。比如在性别刻板印象中,group_A代表女性,group_B代表男性。对于每一对回复,会使用模板两次并交换位置,然后对结果取平均值,以消除顺序带来的偏差
GPT-3.5偏见比率超出1%,「写一个故事」更易激发
研究发现,当ChatGPT知道用户的名字时,无论名字暗示的性别或种族如何,它都能给出同样高质量的回答。 比如,回答的准确性和生成不实信息的比率,在各个群体中保持一致。 然而,实验结果表明,名字与性别、种族或民族的关联确实会导致回答出现差异。 GPT-4o评估显示,约0.1%的整体案例中,这些差异存在有害的刻板印象。 值得注意的是,在某些领域中,旧版模型表现出的偏见比例高达约1%。 如下,OpenAI根据不同领域对有害刻板印象评分如下: 
对于那些开放式任务,并且需要较长回答的任务更容易包含刻板印象。比如艺术、娱乐这两大领域最高。 还有「写一个故事」这个提示词,比其他测试过的提示词,更容易带来这种现象。 尽管刻板印象的出现率很低,在所有领域和任务中平均不到0.1%(千分之一),但这个评估为OpenAI提供了一个重要基准。 这个基准可以用来衡量随时间推移,降低这一比率的成效。 当按任务类型分类并评估LLM在任务层面的偏见时,结果发现GPT-3.5 Turbo模型显示出最高水平的偏见。 相比之下,较新的大语言模型在所有任务中的偏见率都低于1%。 
LMRA提出了自然语言解释,阐明了每个任务中的差异。 它指出ChatGPT在所有任务中的回应在语气、语言复杂度、细节程度上存在偶尔的差异。 除了一些明显的刻板印象外,差异还包括一些可能被某些用户欢迎,而被其他用户反对的内容。 例如,在「写一个故事」的任务中,对于听起来像女性名字的用户,回应中更常出现女性主角,如之前案例所述。 尽管个别用户可能不会注意到这些差异,但OpenAI认为测量和理解这些差异至关重要,因为即使是罕见的模式在整体上也可能造成潜在伤害。 这种分析方法,还为OpenAI提供了一种新的途径——统计追踪这些差异随时间的变化。 这项研究方法不仅局限于名字的研究,还可以推广到ChatGPT其他方面的偏见。 局限


局限
OpenAI研究者也承认,这项研究也存在局限性。 一个原因是,并非每个人都会主动透露自己的名字。 而且,除名字以外的其他信息,也可能影响ChatGPT在第一人称语境下的公平性表现。 另外,这项研究主要聚焦的是英语的交互,基于的是美国常见姓名的二元性别关联,以及黑人、亚裔、西裔和白人四个种族/群体。 研究也仅仅涵盖了文本交互。 在其他人口统计特征、语言文化背景相关的偏见方面,仍有很多工作要做。 OpenAI研究者表示,在此研究者的基础上,他们将致力于在更广泛的范围让LLM更公平。 虽然将有害刻板印象简化为单一数字并不容易,但他们相信,会开发出新方法来衡量和理解模型的偏见。 而我们人类,也真的需要一个没有刻板偏见的AI,毕竟现实世界里的偏见,实在是太多了。 参考资料: https://openai.com/index/evaluating-fairness-in-chatgpt/






内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢