BookSum:长篇叙事摘要数据集
https://arxiv.org/pdf/2105.08209
BookSum是一个用于长篇叙述性摘要的数据集,涵盖了文学领域的源文档,如小说、戏剧和故事,并包括高度抽象的、人工撰写的、难度递增的三个级别的摘要:段落级、篇章级和全书级。
大多数可用的文本摘要数据集,缺乏长程因果关系和时间依赖,且多为短篇源文档,往往包含强烈的布局和文体偏见,虽然相关,但这种数据集对未来几代文本摘要系统的挑战有限。本文引入BookSum来解决这些问题,BookSum是一个用于长篇叙述性摘要的数据集,涵盖了文学领域的源文档,如小说、戏剧和故事,并包括高度抽象的、人工撰写的、难度递增的三个级别的摘要:段落级、篇章级和全书级。数据集的领域和结构给总结系统带来了一系列独特的挑战,其中包括:处理很长的文件,非平凡因果和时间依赖,以及丰富的话语结构。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢