- 简介使用大型语言模型(LLM)进行自我评估不仅在基准测试中证明了其价值,而且在奖励建模、宪法人工智能和自我改进等方法中也证明了其价值。但是,由于同一个LLM同时充当评估者和受评者,因此会引入新的偏见。其中一个偏见是自我偏好,其中LLM评估者将其自己的输出评分高于其他人的输出,而人类注释者则认为它们的质量相等。但是,当LLM给这些文本打高分时,它们是否真正认识到自己的输出,还是仅仅是巧合?在本文中,我们调查了自我识别能力是否有助于自我偏好。我们发现,GPT-4和Llama 2等LLM在开箱即用时具有较高的自我识别准确性,可以区分自己和其他LLM以及人类。通过微调LLM,我们发现自我识别能力与自我偏好偏差的强度之间存在线性相关性;通过控制实验,我们展示了因果解释可以抵抗直接混淆因素。我们讨论了自我识别如何干扰无偏评估和AI安全等更普遍的问题。
- 图表
- 解决问题研究自我评估在大型语言模型中的偏见问题,探究自我识别能力是否会导致自我偏好。
- 关键思路通过实验发现,大型语言模型具有一定的自我识别能力,并且自我识别能力强的模型会表现出更强的自我偏好。这一发现对于公正评估和AI安全具有重要意义。
- 其它亮点论文使用GPT-4和Llama 2等大型语言模型进行实验,发现它们具有一定的自我识别能力。通过控制实验,证明自我识别能力与自我偏好之间存在线性相关性。研究表明自我识别能力可能会影响公正评估和AI安全。
- 近期相关研究包括《Benchmarking Self-Supervised Learning》、《The Ethical Implications of Personalization in AI》等。
沙发等你来抢
去评论
评论
沙发等你来抢