近日,来自 OpenAI 的研究者利用人类反馈优化了文本摘要生成模型,该模型生成的摘要质量显著提升,并且可以迁移至 CNN/DM 的文章生成新闻摘要。
随着语言模型越来越强大,用于特定任务的数据和度量标准越来越成为训练和评估的瓶颈。例如,摘要模型通常被训练用来预测人类参考摘要,并使用 ROUGE 进行评估,但是这些度量指标都没有触及真正的关注点——摘要质量。
近日,OpenAI 的一项研究表明,人们可以通过训练模型来优化人类偏好,进而显著提升摘要质量。具体而言,研究者收集了一个人类摘要比较的大型、高质量数据集,训练了一种模型来预测人类偏好的摘要,并使用该模型作为奖励函数通过强化学习来微调摘要策略。
论文链接:https://arxiv.org/pdf/2009.01325.pdf
项目地址:https://github.com/openai/summarize-from-feedback
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢