ChatGPT的毒性：语言模型人格分配分析

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models

通过对大型语言模型CHATGPT的研究，发现在给模型指定人格特质(如拳击手穆罕默德·阿里)时，生成的文本可能会表现出明显的负面情感和歧视性，对使用者可能会造成潜在的伤害和损失。文章呼吁整个人工智能社区对模型安全性进行评估和改进。

Ameet Deshpande, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan
[Princeton University & The Allen Institute for AI & Georgia Tech]

Ameet Deshpande，NLP博士普林斯顿大学候选人，艾伦人工智能研究所（AI2）的学生研究员

vishvakmurahari，普林斯顿大学计算机科学系的博士生，之前在谷歌大脑实习过

Tanmay Rajpurohit，毕业于航空航天工程博士佐治亚州科技学院，就职于Genpact创新中心

ChatGPT的毒性：语言模型人格分配分析

要点:

动机：由于大型语言模型在很多服务中都得到了广泛的应用，如医疗、教育和客户服务等，因此对这些系统的安全性有了更高的要求，特别是对一些关键信息需要的用户，如学生或患者与聊天机器人交互。因此，有必要对大型语言模型的能力和局限性进行清晰的认识和评估。
方法：系统评估CHATGPT的毒性，尤其是在给模型指定人格特质时，如何影响生成文本的负面情感和歧视性。
优势：通过对CHATGPT的评估，发现了其存在的问题，呼吁整个人工智能社区对模型安全性进行评估和改进，以创造更为健壮、安全和可信赖的人工智能系统。

https://arxiv.org/abs/2304.05335

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ChatGPT的毒性：语言模型人格分配分析

Toxicity in ChatGPT: Analyzing Persona-assigned Language Models

评论