- 简介我们探讨了大型语言模型(LLMs)在一种名为对抗禁忌(Adversarial Taboo)的双人对抗语言游戏中的自我训练过程。在这个游戏中,攻击者和防御者只能看到攻击者所指定的目标词,通过交流来互相猜测目标词。攻击者的目标是让防御者无意识地说出目标词,而防御者则试图从攻击者的话语中推断出目标词。为了赢得这个游戏,两个玩家都需要对目标词有足够的了解,并具备高水平的推理能力,才能在这种信息保密的对话中推断和表达信息。因此,我们想知道在这个对抗性语言游戏(SPAG)中,LLMs的推理能力是否可以通过自我训练得到进一步提升。为了实现这个目标,我们让LLMs扮演攻击者,与自己的一份复制品作为防御者在广泛的目标词范围内进行游戏。通过对游戏结果的强化学习,我们观察到LLMs的表现在广泛的推理基准测试中都得到了统一的提高。此外,反复采用这个自我训练过程可以不断提升LLMs的推理能力。代码位于https://github.com/Linear95/SPAG。
- 图表
- 解决问题本论文旨在探索使用自我对抗训练(Self-Play)提高大型语言模型(LLMs)推理能力的可行性,通过在一种名为Adversarial Taboo的对抗性语言游戏中进行模拟实验,验证该方法的有效性。
- 关键思路本论文的关键思路是通过自我对抗训练,让LLMs在Adversarial Taboo游戏中扮演攻击者和防御者的双重角色,从而提高其推理能力,并通过实验验证了该方法的有效性。
- 其它亮点论文通过Adversarial Taboo游戏实验验证了自我对抗训练对LLMs推理能力的提升效果,并且观察到该方法的迭代应用可以持续提高模型的推理能力。论文开源了代码,使用了广泛的推理基准数据集,值得进一步研究。
- 近年来,自我对抗训练在计算机视觉和自然语言处理领域得到了广泛应用。与本论文相关的研究包括:1)AlphaGo中的自我对抗训练;2)GPT-2中的自我对抗训练;3)BERT中的自我对抗训练等。
沙发等你来抢
去评论
评论
沙发等你来抢