5W1H Extraction With Large Language Models

2024年05月25日
  • 简介
    通过5W1H框架(即“什么”,“何时”,“何地”,“为什么”,“谁”和“如何”)提取关键新闻要素对于事件提取和文本摘要至关重要。大型语言模型(LLMs)如ChatGPT的出现为通过简单提示解决语言相关任务提供了机会,而无需花费大量时间进行微调。虽然ChatGPT在处理较长的新闻文本和分析上下文中的特定属性,特别是回答关于“什么”,“为什么”和“如何”的问题方面遇到了挑战。提取任务的有效性明显取决于高质量的人工注释数据集。然而,缺乏5W1H提取的此类数据集增加了基于开源LLMs进行微调策略的难度。为解决这些限制,首先,我们基于四个典型的新闻语料库(CNN / DailyMail,XSum,NYT,RA-MDS)注释了高质量的5W1H数据集;其次,我们设计了几种策略,从零-shot / few-shot提示到高效微调,以从原始新闻文档中进行5W1H方面的提取。实验结果表明,微调模型在我们标记的数据集上的性能优于ChatGPT的性能。此外,我们还探索了领域适应能力,通过测试源域(例如NYT)模型在目标域语料库(例如CNN / DailyMail)上进行5W1H提取任务。
  • 作者讲解
  • 图表
  • 解决问题
    本文试图解决使用大型语言模型进行5W1H信息抽取时的困难,特别是在回答关于What、Why和How的问题方面的挑战。
  • 关键思路
    本文提出了一种从零-shot/few-shot提示到高效微调的策略,以从原始新闻文档中进行5W1H方面的提取。并且通过构建高质量的5W1H数据集,证明了微调模型在标注数据集上的性能优于ChatGPT。
  • 其它亮点
    本文的亮点包括构建高质量的5W1H数据集、提出了从零-shot/few-shot提示到高效微调的策略、实验结果证明微调模型在标注数据集上的性能优于ChatGPT、探索了领域自适应的能力等。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问