5W1H Extraction With Large Language Models

简介

通过5W1H框架（即“什么”，“何时”，“何地”，“为什么”，“谁”和“如何”）提取关键新闻要素对于事件提取和文本摘要至关重要。大型语言模型（LLMs）如ChatGPT的出现为通过简单提示解决语言相关任务提供了机会，而无需花费大量时间进行微调。虽然ChatGPT在处理较长的新闻文本和分析上下文中的特定属性，特别是回答关于“什么”，“为什么”和“如何”的问题方面遇到了挑战。提取任务的有效性明显取决于高质量的人工注释数据集。然而，缺乏5W1H提取的此类数据集增加了基于开源LLMs进行微调策略的难度。为解决这些限制，首先，我们基于四个典型的新闻语料库（CNN / DailyMail，XSum，NYT，RA-MDS）注释了高质量的5W1H数据集；其次，我们设计了几种策略，从零-shot / few-shot提示到高效微调，以从原始新闻文档中进行5W1H方面的提取。实验结果表明，微调模型在我们标记的数据集上的性能优于ChatGPT的性能。此外，我们还探索了领域适应能力，通过测试源域（例如NYT）模型在目标域语料库（例如CNN / DailyMail）上进行5W1H提取任务。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文试图解决使用大型语言模型进行5W1H信息抽取时的困难，特别是在回答关于What、Why和How的问题方面的挑战。
关键思路

本文提出了一种从零-shot/few-shot提示到高效微调的策略，以从原始新闻文档中进行5W1H方面的提取。并且通过构建高质量的5W1H数据集，证明了微调模型在标注数据集上的性能优于ChatGPT。
其它亮点

本文的亮点包括构建高质量的5W1H数据集、提出了从零-shot/few-shot提示到高效微调的策略、实验结果证明微调模型在标注数据集上的性能优于ChatGPT、探索了领域自适应的能力等。
相关研究

最近在这个领域中，还有一些相关的研究，例如《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》等。

5W1H Extraction With Large Language Models

提问交流

提问交流