作者:  Jian Guan, Zhuoer Feng, Yamei Chen, Ruilin He, Xiaoxi Mao, Changjie Fan, Minlie Huang

摘要: 标准的多任务基准测试对于推动通用预训练模型推广到各种下游任务的进展至关重要。然而,现有的 GLUE 和 GLGE 等基准测试倾向于专注于短文本理解和生成任务,而没有考虑长文本建模,这需要许多独特的能力,例如建模远程常识和话语关系,以及模型的连贯性和可控性。缺乏标准化的基准使得很难全面评估模型的这些能力并公平比较不同的模型,尤其是中文预训练楷模。因此,作者提出了 LOT:一个包含两个理解和两个生成任务的基准、用于中文长文本建模评估。作者基于各种人工编写的中文故事为任务构建数据集。此外,作者发布了一个名为 LongLM的编码器-解码器中文长文本预训练模型,参数高达 10 亿。作者在 120G 中文小说上对LongLM 进行了预训练,其中包含两个生成任务,包括文本填充和条件延续。LOT 上的大量实验表明,LongLM在理解任务上与类似大小的预训练模型的性能相匹配,并在生成任务上大大优于基线。
下载地址:https://arxiv.org/pdf/2108.12960

HUB地址:https://hub.baai.ac.cn/view/9642

内容中包含的图片若涉及版权问题,请及时与我们联系删除