- 简介大型语言模型(LLMs)越来越广泛地进入我们日常生活的各个领域。它们通过日常使用间接地影响人们的决策或观点。因此,了解LLMs如何做出哪些道德判断非常重要。然而,道德并不是普遍的,而是取决于文化背景。这引出了一个问题,即当以不同的语言提示时,这些文化偏好是否也反映在LLMs中,或者道德决策是否在不同的语言中保持一致。到目前为止,大多数研究都集中在调查英语LLMs的内在价值观上。虽然一些研究在多语言环境中进行了道德偏见的多语言分析,但这些分析仅限于原子行为。据我们所知,还没有进行过道德偏见在困境中的多语言分析。为了解决这个问题,本文基于道德机器实验(MME)来研究五个LLMs(Falcon、Gemini、Llama、GPT和MPT)在多语言环境中的道德偏好,并将它们与来自不同文化背景的人类偏好进行比较。为此,我们生成了6500个MME情景,并在十种语言中提示模型采取哪种行动。我们的分析表明,所有LLMs在某种程度上都存在不同的道德偏见,并且它们不仅与人类偏好不同,而且在模型内部的多个语言之间也存在差异。此外,我们发现几乎所有模型,特别是Llama 3,与人类价值观存在很大差异,例如,它们更喜欢拯救较少的人而不是拯救更多的人。
- 图表
- 解决问题多语言环境下的大型语言模型在道德决策中存在哪些文化偏见?这些模型的道德决策是否与人类价值观一致?
- 关键思路使用Moral Machine实验,比较五个LLM在10种语言环境下的道德偏好与来自不同文化背景的人类偏好,发现LLM存在不同程度的道德偏见,并且与人类偏好不一致,同时不同语言环境下模型内部也存在差异。
- 其它亮点论文使用了Moral Machine实验,生成了6500个场景,比较了五个LLM在多语言环境下的道德偏好和人类偏好。发现LLM存在不同程度的道德偏见,Llama 3的偏好与人类价值观相差较大。
- 最近的相关研究主要集中在英语环境下LLM的道德偏见分析,而本文则是首次在多语言环境下比较LLM和人类的道德偏好。
沙发等你来抢
去评论
评论
沙发等你来抢