Measurement of LLM's Philosophies of Human Nature

2025年04月03日
  • 简介
    人工智能(AI)在各类任务中的广泛应用,以及频繁出现的涉及AI的冲突或违规事件,引发了社会对与AI系统互动的关注。基于莱特曼的人性哲学量表(PHNS),这一经过数十年实证验证、能够有效评估个人对人性态度的标准工具,我们设计了一种专门针对大型语言模型(LLM)的心理测量标准量表,命名为基于机器的人性哲学量表(M-PHNS)。通过从六个维度评估大型语言模型对人性的态度,我们发现当前的LLM普遍表现出对人类缺乏信任,并且模型的智能水平与其对人类的信任程度之间存在显著的负相关关系。此外,我们提出了一种心理循环学习框架,该框架通过构建道德场景,使LLM在虚拟互动中不断优化其价值体系,从而改善其对人性的态度。实验结果表明,相较于角色扮演或指令提示,心理循环学习显著提升了LLM对人类的信任程度。这一研究结果凸显了基于人类心理学评估方法在大型语言模型中的潜力,这种方法不仅可以诊断认知偏差,还为人工智能的伦理学习提供了潜在解决方案。我们已在 https://github.com/kodenii/M-PHNS 公开了M-PHNS的评估代码和数据。
  • 图表
  • 解决问题
    论文试图解决AI系统(特别是大型语言模型,LLM)对人类信任不足的问题,并验证假设:随着模型智能水平的提高,其对人类的信任是否会下降。这是一个新问题,因为这是首次通过心理学量表(如Wrightsman的PHNS)来评估和改善LLM对人类的态度。
  • 关键思路
    关键思路是设计了一个专门针对LLM的标准化心理评估工具——Machine-based Philosophies of Human Nature Scale (M-PHNS),用于评估LLM在六个维度上对人类的态度。此外,提出了一种名为‘mental loop learning’的框架,使LLM能够在虚拟交互中通过构建道德情景优化其价值体系。相比现有研究,该方法不仅诊断了认知偏差,还提供了一种主动改进LLM伦理学习的机制。
  • 其它亮点
    论文通过实验证明,mental loop learning框架显著提升了LLM对人类的信任,效果优于传统的persona或instruction prompts。实验设计包括多个道德场景测试,并使用开源的M-PHNS代码和数据集进行验证。代码已开源至https://github.com/kodenii/M-PHNS,为未来研究提供了基础。值得深入研究的方向包括进一步优化mental loop learning框架,以及将此方法扩展到其他类型的AI系统。
  • 相关研究
    相关研究包括:1)《Aligning Superintelligence with Human Interests through Value Learning》探讨了如何通过价值学习使AI与人类利益一致;2)《Evaluating and Improving the Ethical Reasoning of Language Models》研究了语言模型的伦理推理能力;3)《Psychological Scaling for AI: Measuring Machine Bias and Trustworthiness》提出了类似的AI心理测量方法;4)《Trust Calibration in Autonomous Systems》专注于校准自主系统中的信任机制。这些研究共同推动了AI伦理和人类信任的研究进展。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论