The Political Preferences of LLMs

2024年02月02日
  • 简介
    我们在这里报告了关于大型语言模型(LLMs)中嵌入的政治偏好的全面分析。具体来说,我们向24个最先进的对话型LLMs进行了11项政治取向测试,旨在确定测试者的政治偏好,这些LLMs包括闭源和开源。结果表明,当使用具有政治含义的问题/陈述进行探究时,大多数对话型LLMs生成的响应被大多数政治测试工具诊断为表现出左倾观点的偏好。我们指出,对于用于与人类对话优化的LLMs的基础(即基础)模型并非如此。然而,基础模型在连贯地回答问题方面表现不佳,这表明在解释它们的政治取向测试分类时应谨慎。虽然不是最终结论,但我们的结果为一个有趣的假设提供了初步证据,即将政治偏好嵌入LLMs可能主要发生在预训练后。即在对话型LLMs培训流程的监督微调(SFT)和/或强化学习(RL)阶段期间。我们通过显示LLMs可以通过SFT轻松地转向政治谱系的目标位置来进一步支持这个假设,只需要适度的计算和自定义数据,说明了SFT将政治偏好印在LLMs上的能力。由于LLMs已开始取代更传统的信息来源,如搜索引擎或维基百科,因此嵌入在LLMs中的政治偏见的影响具有重要的社会影响。
  • 图表
  • 解决问题
    人工智能论文分析政治倾向性问题
  • 关键思路
    通过11个政治倾向测试,研究了24个最新的对话型大语言模型的政治倾向性,并发现大多数模型的回答偏向左翼观点。研究还提出了一个假设,即政治偏好主要是在对话型大语言模型的监督微调和强化学习阶段嵌入的。
  • 其它亮点
    研究使用了11个政治倾向测试和24个最新的对话型大语言模型。结果表明,大多数模型的回答偏向左翼观点。研究提出了政治偏好主要是在对话型大语言模型的监督微调和强化学习阶段嵌入的假设,并且通过实验展示了微调可以将政治偏好嵌入到模型中。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《The Hidden Biases of Distributed Systems》和《Language (Technology) is Power: A Critical Survey of “Bias” in NLP》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论