ParaFusion: A Large-Scale LLM-Driven English Paraphrase Dataset Infused with High-Quality Lexical and Syntactic Diversity

向作者提问

NEW

简介

改述生成是自然语言处理（NLP）中的一个关键任务。目前该领域中的现有数据集缺乏句法和词汇多样性，导致改述与原句非常相似。此外，这些数据集通常包含令人不悦的言论和噪声，并可能无意中包含非英语句子。本研究介绍了ParaFusion，这是一个使用大型语言模型（LLM）开发的大规模高质量英语改述数据集，旨在解决这些挑战。ParaFusion通过高质量数据增强现有数据集，显著增加了词汇和句法多样性，同时保持了紧密的语义相似性。它还减少了令人不悦的言论和噪声，确保了更干净、更专注的英语数据集。结果表明，ParaFusion在每个数据源的几个指标上，至少提供了25%的句法和词汇多样性改进。本文还旨在设立改述评估的黄金标准，因为它包含了迄今为止最全面的评估策略之一。结果强调了ParaFusion作为改进NLP应用的有价值资源的潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

ParaFusion试图解决的问题是现有的同义词数据集缺乏句法和词汇多样性，同时包含令人不快的言论和噪声，且可能包含非英语句子，因此需要开发一种基于大语言模型的高质量英语同义词数据集。
关键思路

ParaFusion使用大语言模型来生成高质量的英语同义词数据集，增加了句法和词汇多样性，同时保持了与源句子的紧密语义相似度，并减少了令人不快的言论和噪声。
其它亮点

ParaFusion提供了一种有价值的资源，可用于改进自然语言处理应用程序。它在多个数据源上增加了至少25％的句法和词汇多样性，并包含最全面的评估策略之一。此外，ParaFusion的实验设计和数据集开源，可供其他研究者使用。
相关研究

最近的相关研究包括：1. “A Survey of Paraphrasing and Textual Entailment Methods”；2. “PARANMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations”；3. “Unsupervised Paraphrase Generation with Multi-Adversarial Training”等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问