- 简介本文探讨了两个代理人之间的博弈,通过交互式的方式来优化大型语言模型的性能。在这个框架下,对抗性代理人的任务是生成暴露防御性代理人弱点的提示。防御性代理人则试图根据奖励模型的反馈改进对这些新提示的回应。我们在理论上证明了这种迭代强化学习优化会收敛到由代理人引发的博弈的纳什均衡。在安全场景的实验结果中,我们发现在这样一个竞争环境中学习不仅可以完全训练代理人,而且还可以提高对抗性和防御性代理人的泛化能力。与传统的收集提示的方法相比,这种方法更加高效和全面。
-
- 图表
- 解决问题论文旨在通过两个代理人的交互学习,解决大型语言模型优化中的问题。
- 关键思路通过两个代理人的对抗学习,实现对大型语言模型的优化,提高其泛化能力。
- 其它亮点论文通过对抗学习的方式,使得大型语言模型能够在更多场景下得到训练和优化,提高其泛化能力。实验结果表明该方法在安全场景下表现良好。
- 与该论文相关的研究包括:《Reinforcement Learning with Human Feedback》、《Adversarial Learning for Neural Dialogue Generation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流