Toxicity in ChatGPT: Analyzing Persona-assigned Language Models

通过对大型语言模型CHATGPT的研究,发现在给模型指定人格特质(如拳击手穆罕默德·阿里)时,生成的文本可能会表现出明显的负面情感和歧视性,对使用者可能会造成潜在的伤害和损失。文章呼吁整个人工智能社区对模型安全性进行评估和改进。

Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan
[Princeton University & The Allen Institute for AI & Georgia Tech]

Ameet Deshpande,NLP博士普林斯顿大学候选人,艾伦人工智能研究所(AI2)的学生研究员

vishvakmurahari,普林斯顿大学计算机科学系的博士生,之前在谷歌大脑实习过

Tanmay Rajpurohit,毕业于航空航天工程博士佐治亚州科技学院,就职于Genpact创新中心

ChatGPT的毒性:语言模型人格分配分析

要点:

  • 动机:由于大型语言模型在很多服务中都得到了广泛的应用,如医疗、教育和客户服务等,因此对这些系统的安全性有了更高的要求,特别是对一些关键信息需要的用户,如学生或患者与聊天机器人交互。因此,有必要对大型语言模型的能力和局限性进行清晰的认识和评估。
  • 方法:系统评估CHATGPT的毒性,尤其是在给模型指定人格特质时,如何影响生成文本的负面情感和歧视性。
  • 优势:通过对CHATGPT的评估,发现了其存在的问题,呼吁整个人工智能社区对模型安全性进行评估和改进,以创造更为健壮、安全和可信赖的人工智能系统。

https://arxiv.org/abs/2304.05335 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除