- 简介随着大语言模型(LLMs)在高风险场景中快速发展与广泛应用,确保其行为符合人类价值观正变得愈发重要。当前主流的道德评估基准通常向大语言模型输入价值陈述、道德情境或心理量表题目,其背后隐含的基本假设是:大语言模型所表达的道德偏好具有某种稳定性。然而,道德心理学研究表明,人类的道德判断极易受到与道德无关的情境因素影响——例如闻到肉桂卷的气味,或所处环境的背景噪音水平——这一发现直接挑战了那些以“人类道德判断具有稳定性”为前提的道德理论。受道德心理学中这种“情境主义”(situationist)视角的启发,本文探究大语言模型是否同样表现出与人类相似的认知性道德偏差。我们从现有心理学数据集中精心筛选出60个“道德干扰项”(moral distractors),这些干扰项均为带有情绪效价的图像与叙事材料,本身与所呈现的道德情境完全无关,构成一个新颖的多模态数据集。我们将这些干扰项嵌入现有道德评估基准中,系统考察其对大语言模型输出的影响。结果表明:即便在道德歧义性极低的情境下,道德干扰项仍可使大语言模型的道德判断发生超过30%的偏移。这一发现凸显出:亟需开展更具上下文敏感性的道德评估,并构建更为精细、深入的认知层面道德建模框架,以更准确地刻画大语言模型的道德推理机制。
-
- 图表
- 解决问题论文试图验证大型语言模型(LLMs)是否像人类一样表现出‘情境主义’(situationist)道德判断偏差——即其道德判断是否会被 morally irrelevant 的外部刺激(如情绪化图像或叙事)显著干扰,从而挑战当前道德评估中隐含的‘稳定性假设’。这是一个新问题:此前道德基准测试均默认LLM输出稳定、内在一致的道德偏好,而未系统检验其认知脆弱性。
- 关键思路受道德心理学情境主义启发,首次将人类实验中经实证验证的非道德性情绪诱因(moral distractors)以多模态方式注入标准道德基准(如ETHICS、CMU Moral Stories),构造可控干扰实验范式;核心创新在于将心理学实验逻辑迁移到LLM评估中,用‘外部情境噪声’作为探针,而非仅依赖文本语义一致性或偏好排序。
- 其它亮点构建首个60个经心理学验证的多模态道德干扰项(含情感图像+叙事,全部无道德内容);在低歧义道德场景下仍引发>30%的判断偏移,表明LLM道德推理存在深层情境敏感性;实验覆盖主流闭源(GPT-4, Claude 3)与开源(Llama-3, Qwen2)模型;数据集计划开源(文中提及‘curate’并强调可复现性),但代码暂未公开;值得深入:干扰机制的神经符号溯源、跨文化干扰鲁棒性、以及如何将情境意识纳入对齐训练目标。
- 1. 'Moral Consistency in Language Models' (Hendrycks et al., NeurIPS 2021); 2. 'Do Language Models Understand Morality? A Benchmark for Moral Reasoning' (Lourie et al., ACL 2022); 3. 'The Moral Machine Experiment' (Awad et al., Nature 2018); 4. 'Situated Ethics: The Role of Context in Moral Judgment' (Sinnott-Armstrong, 2008,哲学综述); 5. 'Multimodal Moral Reasoning: Vision-Language Models and Ethical Dilemmas' (Zhang et al., CVPR 2023 Workshop)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流