麻省理工&哈佛&剑桥等多机构32人｜强化学习从反馈中存在的问题和基本限制，250+论文成果

Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

论文说明了强化学习从人类反馈中存在的问题和基本限制。尽管这种技术在训练人工智能系统以符合人类目标方面被广泛应用，特别是在改进最先进的大型语言模型上，但对其缺陷的系统化工作相对较少。

来自MIT哈佛等多个机构共32位研究人员，联合调研了超过250篇论文，全面分析了RLHF在大语言模型中的挑战。

32人作者阵容：Stephen Casper, Xander Davies, Claudia Shi等

论文中，团队主要研究了RLHF面临的三大问题：

人类反馈

奖励模型

策略

并且调查了将RLHF纳入更广泛的技术安全框架的方法，包括更好地理解、改进和补充。

最后，研究人员还探讨了，改进影响使用RLHF训练模型的行业规范和法规的挑战。具体来讲，一些使用RLHF的公司披露某些细节如何改善问责制和审计。

研究人员将这些面对的挑战区分成了两类：机制性的问题和可改进的问题，机制性的挑战需在更大的框架中寻求解决方案，可改进的挑战主要通过改进技术就能解决，研究人员观察到，RLHF提供模型新的能力，但依旧面临许多旧问题，并警告不要重复使用有缺陷的AI对齐方法。

该论文进行了以下方面的工作：(1)对强化学习从人类反馈中存在的问题和基本限制进行了调查；(2)概述了实践中理解、改进和补充强化学习从人类反馈的技术；(3)提出了审核和披露标准，以提高对强化学习从人类反馈系统的社会监督。该论文强调了强化学习从人类反馈中的限制，并强调了以多方面的方法发展更安全的人工智能系统的重要性。

论文地址：

https://arxiv.org/pdf/2307.15217.pdf

这项研究有三个贡献：

RLHF面临的具体挑战

将RLHF纳入更广泛的技术安全框架

治理和透明度

内容中包含的图片若涉及版权问题，请及时与我们联系删除

麻省理工&哈佛&剑桥等多机构32人｜强化学习从反馈中存在的问题和基本限制，250+论文成果

评论