Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models

向作者提问

NEW

简介

随着像语言模型这样的AI系统越来越多地被整合到影响人们生活的决策过程中，确保这些系统具有健全的道德推理至关重要。为了测试它们是否具备这种能力，我们需要开发系统性的评估方法。我们提供了一个框架，使用语言模型将捕捉道德困境关键方面的因果图转化为提示模板。借助此框架，我们生成了一个大而多样的道德困境集合——OffTheRails基准测试，包含50个情景和400个独特的测试项目。我们从我们的项目子集中收集了人类参与者的道德容许性和意图判断，并将这些判断与两个语言模型（GPT-4和Claude-2）在八个条件下的判断进行了比较。我们发现，对于那些伤害是必要手段（而不是副作用）的道德困境，参与者和语言模型的容许性评分较低，意图评分较高。对于可避免和不可避免的有害结果，也观察到了相同的模式。然而，伤害是由代理人的行动还是由未采取行动造成的，没有明显的影响。我们讨论了提示生成流程的局限性和改进情境以增强实验效果的机会。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在开发一种系统评估人工智能系统道德推理能力的框架，以及基于该框架生成一个大规模的道德困境测试集 OffTheRails，以验证语言模型在道德决策中的性能。
关键思路

本论文提出了一种使用语言模型将捕捉道德困境关键方面的因果图转化为提示模板的框架，以生成大规模且多样化的道德困境测试集。通过将测试集中的一部分项目与人类参与者进行道德许可和意图判断的比较，发现道德困境中伤害是必要手段的情况下，无论是参与者还是语言模型都会给出较低的许可度和较高的意图评分。这种情况在不可避免的有害结果与可避免的有害结果之间也存在。但是，无论伤害是由代理的行为还是由未行动造成的，都没有明显的影响。
其它亮点

本论文提供了一种新的方法来评估语言模型在道德决策中的性能，并生成了一个大规模的道德困境测试集，可用于评估和比较不同的语言模型。作者还发现了道德困境中伤害是必要手段的情况下，语言模型和人类参与者的道德判断存在相似性。
相关研究

近年来，许多研究都关注了人工智能在道德决策中的应用。例如，M. G. Skowron等人提出了一种基于道德原则的人工智能系统，用于解决道德困境。还有一些研究关注于如何让人工智能系统更好地学习道德规范，例如，P. Bartlett等人提出了一种基于逆强化学习的方法，用于从人类示例中学习道德规范。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问