Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

论文说明了强化学习从人类反馈中存在的问题和基本限制。尽管这种技术在训练人工智能系统以符合人类目标方面被广泛应用,特别是在改进最先进的大型语言模型上,但对其缺陷的系统化工作相对较少。

来自MIT哈佛等多个机构共32位研究人员,联合调研了超过250篇论文,全面分析了RLHF在大语言模型中的挑战。

32人作者阵容:Stephen Casper, Xander Davies, Claudia Shi等

 

论文中,团队主要研究了RLHF面临的三大问题

人类反馈

奖励模型

策略

并且调查了将RLHF纳入更广泛的技术安全框架的方法,包括更好地理解、改进和补充。

最后,研究人员还探讨了,改进影响使用RLHF训练模型的行业规范和法规的挑战。具体来讲,一些使用RLHF的公司披露某些细节如何改善问责制和审计。

研究人员将这些面对的挑战区分成了两类:机制性的问题和可改进的问题,机制性的挑战需在更大的框架中寻求解决方案,可改进的挑战主要通过改进技术就能解决,研究人员观察到,RLHF提供模型新的能力,但依旧面临许多旧问题,并警告不要重复使用有缺陷的AI对齐方法。

该论文进行了以下方面的工作:(1)对强化学习从人类反馈中存在的问题和基本限制进行了调查;(2)概述了实践中理解、改进和补充强化学习从人类反馈的技术;(3)提出了审核和披露标准,以提高对强化学习从人类反馈系统的社会监督。该论文强调了强化学习从人类反馈中的限制,并强调了以多方面的方法发展更安全的人工智能系统的重要性。

论文地址

https://arxiv.org/pdf/2307.15217.pdf 

这项研究有三个贡献

RLHF面临的具体挑战
将RLHF纳入更广泛的技术安全框架
治理和透明度
更多还可以参考:
https://mp.weixin.qq.com/s/BCdX6PuEdSR7D3WJ4ffonA

内容中包含的图片若涉及版权问题,请及时与我们联系删除