【论文推荐】OpenAI用人类反馈提升了摘要生成质量

近日，来自 OpenAI 的研究者利用人类反馈优化了文本摘要生成模型，该模型生成的摘要质量显著提升，并且可以迁移至 CNN/DM 的文章生成新闻摘要。

随着语言模型越来越强大，用于特定任务的数据和度量标准越来越成为训练和评估的瓶颈。例如，摘要模型通常被训练用来预测人类参考摘要，并使用 ROUGE 进行评估，但是这些度量指标都没有触及真正的关注点——摘要质量。

近日，OpenAI 的一项研究表明，人们可以通过训练模型来优化人类偏好，进而显著提升摘要质量。具体而言，研究者收集了一个人类摘要比较的大型、高质量数据集，训练了一种模型来预测人类偏好的摘要，并使用该模型作为奖励函数通过强化学习来微调摘要策略。

论文链接：https://arxiv.org/pdf/2009.01325.pdf

项目地址：https://github.com/openai/summarize-from-feedback

内容中包含的图片若涉及版权问题，请及时与我们联系删除