Attributions toward Artificial Agents in a modified Moral Turing Test

简介

人工智能（AI）的进步引发了重要的问题，即人们是否将AI系统生成的道德评价视为与人类生成的道德评价类似。我们进行了一项改进的道德图灵测试（m-MTT），受Allen等人（2000）的建议启发，要求人们区分真实的人类道德评价和由流行的先进AI语言模型GPT-4进行的评价。299名美国成年人代表性样本首先在不知道评价来源的情况下对道德评价的质量进行了评分。值得注意的是，他们几乎在所有维度上都认为AI的道德推理质量优于人类，包括道德品质、智力和可信度，这与Allen等人所称的比较MTT相一致。接下来，当被要求确定每个评价的来源（人类还是计算机）时，人们的表现显著高于随机水平。虽然AI没有通过这个测试，但这并不是因为它的道德推理能力不如人类，而是可能是因为人们认为它更优秀，还有其他可能的解释。能够产生被认为在质量上优于人类的道德回应的语言模型的出现引发了人们的担忧，即人们可能会毫无批判地接受潜在有害的AI道德指导。这种可能性强调了在道德问题上需要对生成语言模型进行保障的必要性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

人工智能在道德评估方面的表现是否会被人类接受和采纳？
关键思路

通过修改图灵测试，研究人们是否能够区分人类和AI的道德评估，并发现人们认为AI的道德推理质量优于人类，这可能引发人们对AI道德引导的盲目接受。
其它亮点

研究采用了修改版的图灵测试，发现人们普遍认为AI的道德推理质量优于人类，并且能够较好地区分出人类和AI的道德评估。这表明需要对生成语言模型在道德方面的引导进行控制和监管。
相关研究

近期相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Language Models are Few-Shot Learners》等。

Attributions toward Artificial Agents in a modified Moral Turing Test

提问交流

提问交流