- 简介本文对试图通过反馈强化学习(RLxF)方法,包括人类反馈(RLHF)或人工智能反馈(RLAIF),将人工智能系统,尤其是大型语言模型(LLMs)与人类价值观和意图相一致的努力进行了批判性评估。具体而言,我们展示了广泛追求的诚实、无害和有益对齐目标的缺陷。通过多学科社会技术批判,我们审查了RLxF技术的理论基础和实际实施,揭示了其在捕捉人类伦理复杂性和促进人工智能安全方面方法的重大局限性。我们强调了RLxF目标中固有的张力和矛盾。此外,我们讨论了在关于对齐和RLxF的讨论中往往被忽视的具有伦理相关性的问题,其中包括用户友好性和欺骗、灵活性和可解释性以及系统安全之间的权衡。最后,我们敦促研究人员和从业者批判性地评估RLxF的社会技术影响,倡导在人工智能开发中采取更为细致和反思的方法。
- 图表
- 解决问题评估人工智能系统与人类价值和意图的一致性,探讨强化学习从反馈中实现对齐的方法
- 关键思路通过多学科的社会技术批判,揭示了RLxF技术在捕捉人类伦理复杂性和促进AI安全方面的显著局限性。强调了RLxF目标中固有的紧张和矛盾。
- 其它亮点论文评估了从人类反馈(RLHF)或AI反馈(RLAIF)的强化学习从反馈中实现对齐的方法,提出了对诚实、无害和有益的对齐目标的局限性。同时,还讨论了用户友好性和欺骗、灵活性和可解释性、系统安全等伦理相关问题。
- 相关研究包括:《机器学习的道德问题:从算法到人类》、《AI对齐:从哲学到研究路线图》、《对齐机器智能与人类价值:一个哲学观点》等。
沙发等你来抢
去评论
评论
沙发等你来抢