对于给定源语言编写的文档,跨语言摘要的目的是用不同的目标语言生成相应的摘要。在全球化的背景下,跨语言摘要可以帮助人们从他们不熟悉的语言的文档中获取关键信息,从而提高信息获取的效率。因此,这一任务变得更加重要,并引起了广泛的研究关注。然而,目前的跨语言摘要工作通常集中于短文本场景。

本文构建了第一个针对长文档场景下的跨语言摘要数据集Perseus,包含94k个中文科技论文以及其对应的英文摘要。我们的数据集涉及四大学科,包括工程应用、自然科学、农业科学以及医药科学,文档的平均长度达到2872.9个汉字。相关工作已经被WSDM2023接收。

 

图片

Code:https://github.com/LearnItBoy/Perseus

阅读详情