Are Language Models Sensitive to Morally Irrelevant Distractors?

向作者提问

NEW

简介

随着大语言模型（LLMs）在高风险场景中快速发展与广泛应用，确保其行为符合人类价值观正变得愈发重要。当前主流的道德评估基准通常向大语言模型输入价值陈述、道德情境或心理量表题目，其背后隐含的基本假设是：大语言模型所表达的道德偏好具有某种稳定性。然而，道德心理学研究表明，人类的道德判断极易受到与道德无关的情境因素影响——例如闻到肉桂卷的气味，或所处环境的背景噪音水平——这一发现直接挑战了那些以“人类道德判断具有稳定性”为前提的道德理论。受道德心理学中这种“情境主义”（situationist）视角的启发，本文探究大语言模型是否同样表现出与人类相似的认知性道德偏差。我们从现有心理学数据集中精心筛选出60个“道德干扰项”（moral distractors），这些干扰项均为带有情绪效价的图像与叙事材料，本身与所呈现的道德情境完全无关，构成一个新颖的多模态数据集。我们将这些干扰项嵌入现有道德评估基准中，系统考察其对大语言模型输出的影响。结果表明：即便在道德歧义性极低的情境下，道德干扰项仍可使大语言模型的道德判断发生超过30%的偏移。这一发现凸显出：亟需开展更具上下文敏感性的道德评估，并构建更为精细、深入的认知层面道德建模框架，以更准确地刻画大语言模型的道德推理机制。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图验证大型语言模型（LLMs）是否像人类一样表现出‘情境主义’（situationist）道德判断偏差——即其道德判断是否会被 morally irrelevant 的外部刺激（如情绪化图像或叙事）显著干扰，从而挑战当前道德评估中隐含的‘稳定性假设’。这是一个新问题：此前道德基准测试均默认LLM输出稳定、内在一致的道德偏好，而未系统检验其认知脆弱性。
关键思路

受道德心理学情境主义启发，首次将人类实验中经实证验证的非道德性情绪诱因（moral distractors）以多模态方式注入标准道德基准（如ETHICS、CMU Moral Stories），构造可控干扰实验范式；核心创新在于将心理学实验逻辑迁移到LLM评估中，用‘外部情境噪声’作为探针，而非仅依赖文本语义一致性或偏好排序。
其它亮点

构建首个60个经心理学验证的多模态道德干扰项（含情感图像+叙事，全部无道德内容）；在低歧义道德场景下仍引发>30%的判断偏移，表明LLM道德推理存在深层情境敏感性；实验覆盖主流闭源（GPT-4, Claude 3）与开源（Llama-3, Qwen2）模型；数据集计划开源（文中提及‘curate’并强调可复现性），但代码暂未公开；值得深入：干扰机制的神经符号溯源、跨文化干扰鲁棒性、以及如何将情境意识纳入对齐训练目标。
相关研究

1. 'Moral Consistency in Language Models' (Hendrycks et al., NeurIPS 2021); 2. 'Do Language Models Understand Morality? A Benchmark for Moral Reasoning' (Lourie et al., ACL 2022); 3. 'The Moral Machine Experiment' (Awad et al., Nature 2018); 4. 'Situated Ethics: The Role of Context in Moral Judgment' (Sinnott-Armstrong, 2008,哲学综述); 5. 'Multimodal Moral Reasoning: Vision-Language Models and Ethical Dilemmas' (Zhang et al., CVPR 2023 Workshop)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问