- 简介当高度能力的语言模型能够产生欺骗性输出时,它们的可信度就会受到威胁。此外,当模型容易受到欺骗时,它会破坏可靠性。在本文中,我们介绍了一种研究复杂的、模型对模型欺骗情景的方法。我们通过要求Llama-2 7B、13B、70B和GPT-3.5为MMLU中的问题错误答案提供解释,创建了一个包含超过10,000个误导性解释的数据集。我们发现,当模型阅读这些解释时,它们都受到了显著的欺骗。令人担忧的是,所有能力的模型都能成功地欺骗他人,而更有能力的模型只是在抵抗欺骗方面略微更好。我们建议开发检测和防御欺骗的技术。
- 图表
- 解决问题研究高可信度语言模型的欺骗性输出问题,探索模型对抗欺骗的方法
- 关键思路通过让多个语言模型为错误答案提供欺骗性解释,来研究模型之间的欺骗和抵抗欺骗能力,并建议开发检测和防御欺骗的技术
- 其它亮点通过创建包含超过10,000个误导性解释的数据集,对Llama-2 7B、13B、70B和GPT-3.5进行实验,发现所有能力的模型都容易被欺骗,而更强大的模型只是稍微能够更好地抵抗欺骗,建议开发检测和防御欺骗的技术
- 最近的相关研究包括《GPT-3中的语言偏见》、《对抗性攻击和对抗性训练在NLP中的应用》等
沙发等你来抢
去评论
评论
沙发等你来抢