【标题】Rainier: Reinforced Knowledge Introspector for Commonsense Question Answering
【作者团队】Jiacheng Liu, Skyler Hallinan, Ximing Lu, Pengfei He, Sean Welleck, Hannaneh Hajishirzi, Yejin Choi
【发表日期】2022.10.22
【论文链接】https://arxiv.org/pdf/2210.03078.pdf
【推荐理由】知识是推理的基础。最近的研究表明,当相关知识作为常识问答(QA)的附加上下文提供时,即使在最先进的技术之上,它也可以大大提高性能。其挑战是,在哪里以及如何找到高质量的、与问题相关的知识;从知识库中检索到的知识是不完整的,从语言模型中生成的知识也是不一致的。本文介绍了Rainier,即强化知识反省者,它学习生成与背景相关的知识来回答给定的问题。该方法从模仿GPT-3生成的知识开始,然后通过强化学习学习生成自己的知识,在强化学习中,奖励是基于提高的答题成绩而形成的。Rainier在9个不同的常识基准测试中表现出了实质性和一致性的性能提升:包括5个在模型训练中看到的数据集,以及4个不可见的数据集。该研究是首次报告,由比GPT-3小几个数量级的模型生成的知识,即使没有对知识本身的直接监督,也可能超过从GPT-3中得出的常识知识的质量。
评论
沙发等你来抢