【论文标题】SuperPAL: Supervised Proposition ALignment for Multi-Document Summarization and Derivative Sub-Tasks 【作者团队】Ori Ernst, Ori Shapira, Ramakanth Pasunuru, Michael Lepioshkin, Jacob Goldberger, Mohit Bansal, Ido Dagan 【发表时间】2020/9/01 【论文链接】https://arxiv.org/abs/2009.00590

【推荐理由】 本文来自巴伊兰大学Ido Dagan教授团队,该论文发布了多文档摘要的完整训练、验证和测试数据集,并提出了一个监督学习的对齐模型,该模型经过训练并通过本文发布的数据集进行了评估,其性能优于多个基准。 多文档摘要是一项艰巨的任务,通常分解为显着性检测和冗余检测的子任务。虽然参考摘要和源文档之间的跨度对齐已被用于训练组件任务,但底层对齐步骤从未得到过独立的处理或评估。作者提出了一种高质量的源文档参考对齐算法,该算法可应用于最新的大规模数据集以获得有用的近似的训练数据。第一步,作者提出了一种注释方法,通过该方法可以创建用于汇总-源对齐的最佳标准开发和测试集,并提出用于调整和评估有效对齐算法以及正确评估MDS的实用程序子任务。其次,作者引入了一个新的大规模比对数据集进行训练,并以此训练了一个自动对抗模型。与用于摘要的先验对齐器相比,该对齐器在参考摘要中实现了更高的一致性,并且在对抗性摘要模型中替换更简单的对齐器时,ROUGE结果显着提高。最后,作者发布了三个额外的数据集(显着性,聚类和生成),它们是从作者的比对数据集中自然导出的。此外,这些数据集可以在本文训练完成的比对模型提取比对后自动从任何汇总数据集中导出。因此,它们可用于训练汇总子任务。 本文的主要贡献如下: 1. 本文首次发布了多文档摘要的完整训练、验证和测试数据集,其中包含高质量的命题级源摘要汇总。为了确保高质量,所有对齐都经过人工注释,其中一些(验证和测试集的标注)是详尽无遗的,而一些(训练集的标注)是局部的。 2. 本文发布了一个监督学习的对齐模型,该模型经过训练并通过本文发布的数据集进行了评估,其性能优于多个基准。该对齐模型可以从摘要汇总数据集中提取高质量的比对,尤其是本文重新发布两个大型摘要数据集的预测比对。 3. 本文展示了(子句)命题级对齐在多文档摘要数据集上的强大功能。实验表明,该模型可以从此类对齐中派生出许多数据集,这些数据集可用于对摘要子组件进行建模,并且解决相关的子任务(例如显着性,聚类和生成)。作者也发布了这些派生数据集。

内容中包含的图片若涉及版权问题,请及时与我们联系删除