Toxicity in ChatGPT: Analyzing Persona-assigned Language Models
通过对大型语言模型CHATGPT的研究,发现在给模型指定人格特质(如拳击手穆罕默德·阿里)时,生成的文本可能会表现出明显的负面情感和歧视性,对使用者可能会造成潜在的伤害和损失。文章呼吁整个人工智能社区对模型安全性进行评估和改进。
Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan
[Princeton University & The Allen Institute for AI & Georgia Tech]
Ameet Deshpande,NLP博士普林斯顿大学候选人,艾伦人工智能研究所(AI2)的学生研究员
vishvakmurahari,普林斯顿大学计算机科学系的博士生,之前在谷歌大脑实习过
Tanmay Rajpurohit,毕业于航空航天工程博士佐治亚州科技学院,就职于Genpact创新中心
ChatGPT的毒性:语言模型人格分配分析
要点:
-
动机:由于大型语言模型在很多服务中都得到了广泛的应用,如医疗、教育和客户服务等,因此对这些系统的安全性有了更高的要求,特别是对一些关键信息需要的用户,如学生或患者与聊天机器人交互。因此,有必要对大型语言模型的能力和局限性进行清晰的认识和评估。 -
方法:系统评估CHATGPT的毒性,尤其是在给模型指定人格特质时,如何影响生成文本的负面情感和歧视性。 -
优势:通过对CHATGPT的评估,发现了其存在的问题,呼吁整个人工智能社区对模型安全性进行评估和改进,以创造更为健壮、安全和可信赖的人工智能系统。
https://arxiv.org/abs/2304.05335
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢