ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity

2024年04月18日
  • 简介
    改述生成是自然语言处理(NLP)中的一个关键任务。目前该领域中的现有数据集缺乏句法和词汇多样性,导致改述与原句非常相似。此外,这些数据集通常包含令人不悦的言论和噪声,并可能无意中包含非英语句子。本研究介绍了ParaFusion,这是一个使用大型语言模型(LLM)开发的大规模高质量英语改述数据集,旨在解决这些挑战。ParaFusion通过高质量数据增强现有数据集,显著增加了词汇和句法多样性,同时保持了紧密的语义相似性。它还减少了令人不悦的言论和噪声,确保了更干净、更专注的英语数据集。结果表明,ParaFusion在每个数据源的几个指标上,至少提供了25%的句法和词汇多样性改进。本文还旨在设立改述评估的黄金标准,因为它包含了迄今为止最全面的评估策略之一。结果强调了ParaFusion作为改进NLP应用的有价值资源的潜力。
  • 作者讲解
  • 图表
  • 解决问题
    ParaFusion试图解决的问题是现有的同义词数据集缺乏句法和词汇多样性,同时包含令人不快的言论和噪声,且可能包含非英语句子,因此需要开发一种基于大语言模型的高质量英语同义词数据集。
  • 关键思路
    ParaFusion使用大语言模型来生成高质量的英语同义词数据集,增加了句法和词汇多样性,同时保持了与源句子的紧密语义相似度,并减少了令人不快的言论和噪声。
  • 其它亮点
    ParaFusion提供了一种有价值的资源,可用于改进自然语言处理应用程序。它在多个数据源上增加了至少25%的句法和词汇多样性,并包含最全面的评估策略之一。此外,ParaFusion的实验设计和数据集开源,可供其他研究者使用。
  • 相关研究
    最近的相关研究包括:1. “A Survey of Paraphrasing and Textual Entailment Methods”;2. “PARANMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations”;3. “Unsupervised Paraphrase Generation with Multi-Adversarial Training”等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问