中国科学院信息工程研究所李金鹏、张闯、陈小军、胡玥廖鹏程的综述论文,发表在《计算机研究与发展》2021年第1期。

论文的总结部分

自动文摘技术自20世纪50年代末提出,经历了一段缓慢的发展历程,如今深度学习所展现的优秀表现给自动文摘的研究带来了新的机会,使其近年来快速发展,进入高速发展期. 自动文摘属于自然语言处理领域中文本生成的范畴,其社会价值促使自动文摘在自然语言处理领域占有重要的地位. 目前该技术不仅在金融、新闻、媒体等领域表现出优秀的性能,还在信息检索、舆情分析、内容审查等方面展现出重要的作用. 本文通过对众多研究工作的回顾和分析,对自动文摘技术算法进行了分类梳理,从抽取式方法和生成式方法2个角度介绍了常见的自动文摘算法,并对与之紧密相关的数据集和评价指标进行了详细介绍. 最后本文对自动文摘面临的挑战和未来的发展趋势做出了预测和展望. 可以预见,随着新技术的发展、模型性能的提升,其应用将越来越广泛,在不远的将来可显著地提高人们在海量数据中的信息获取效率,为人类的生活带来更多便利.

面临的挑战及其发展趋势

目前,自动文摘技术已应用在某些特定领域.但整体来看,近年大量的工作将研究重点放在了抽取或生成的算法上,数据集与评价指标的研究工作较少.除此之外,关于自动文摘的研究工作缺乏针对性的跨越式进步,还需要突破性的创新工作提升性能才能更广泛地适应各个场景,所以自动文摘任务的质量和性能还面临诸多挑战:

1) 数据集. 高质量的自动文摘数据集较少,甚至中文长文本数据集缺失,限制了中文文本摘要技术的研究.

2) 评价指标. 自动评价方法过于死板,人工评价方法较主观,缺乏被学术界广泛认可并切实可行的评价方法,这减缓了该任务的发展.

3) 语义表达. 文档的摘要应有多种表达方式,但是目前来说同一语义的不同表达、重复表达同一语义的问题还需要相应的工作来解决.

自动文摘的研究已经有近60年的历史,由于该任务的难度导致初期的效果并不理想,随着深度学习的快速发展才使得人们看到自动文摘广泛应用的希望.长期看来,自动文摘的发展有6个趋势:

1) 数据集. 中文、英文和其他语言的高质量自动文摘数据集将有可能推动自动文摘任务的发展,若仅依靠人工参与构建数据集将是项耗时耗力的工作,因此如果可以通过计算机自动地构建高质量数据集将是非常有意义的.

2) 评价指标. 目前有工作提出通过计算文本之间语义相似度、改进的ROUGE等对自动文摘进行评价,但尚不能有效地扩展,因此更加完善的自动文摘评价指标必然是长期研究的重点问题.

3) 方法融合. 新技术的探索是永远的话题,对传统算法与深度学习的结合,或抽取式方法与生成式方法进一步融合将是学术界乃至工业界必然的趋势.

4) 借助外部知识. 机器效仿人类生成摘要的过程时需要背景知识的辅助(如纳入背景知识库),对于深度学习方法来说还可用预训练的模型为自动文摘模型提供强有力的外部知识.

5) 弱监督或无监督发展. 由于缺乏高质量的自动文摘数据集,一种有效可靠的方法是通过少量的训练数据或无训练数据使用高效的算法处理自动文摘任务.

6) 应用场景. 研究人员的重心将会慢慢从普适性的工作转移到特定细分场景上,针对不同的子任务场景提出更加具有针对性的算法,如新闻标题、自动对联、评论摘要、会议摘要、金融快报等.

全文可以在这里阅读。

内容中包含的图片若涉及版权问题,请及时与我们联系删除