Train & Constrain: Phonologically Informed Tongue-Twister Generation from Topics and Paraphrases

2024年03月20日
  • 简介
    以往在语音和语音学基础上的语言生成研究主要集中在双关语和诗歌等领域。本文提出了新的研究,关于绕口令的生成——这种语言形式需要在音素级别上进行条件限制,以最大化音频重叠,同时保持与输入主题的语义一致性并且仍然符合语法规则。我们提出了TwisterLister,这是一个从大型语言模型(LLMs)中生成音韵知识绕口令的流程,并用它来生成TwistList 2.0,迄今为止最大的绕口令注释数据集,包括来自人类和LLM作者的17K+个例子。我们的生成流程涉及使用音韵约束词汇和LLM提示来生成新的、非衍生的绕口令例子。此外,我们还展示了在我们生成的数据集上训练的较小模型的自动和人工评估结果,以展示在没有明确注入音韵知识的情况下,可以生成多少受音韵驱动的语言类型。此外,我们还引入了一个音素感知受限解码模块(PACD),它可以集成到任何因果语言模型中,并展示了这种方法在不进行底层语言模型微调的情况下生成良好质量的绕口令。我们还设计和实现了一系列自动度量标准,用于基于音素编辑距离(PED)的受音韵驱动的绕口令生成任务,以捕捉绕口令的独特本质。
  • 图表
  • 解决问题
    本文旨在解决生成绕口令这一需要在音位层面上进行条件限制的语言形式的问题,并提出了一个生成流程TwisterLister和一个数据集TwistList 2.0。
  • 关键思路
    本文提出了一个结合音位限制词汇和大型语言模型提示的生成流程,用于生成新颖的非派生性绕口令示例。同时,还介绍了一种可集成到任何因果语言模型中的音素感知约束解码模块(PACD),并证明了该方法可以在不调整底层语言模型的情况下生成高质量的绕口令。
  • 其它亮点
    本文生成了迄今为止最大的绕口令数据集TwistList 2.0,包含来自人类和语言模型作者的17K+示例,并设计了一系列自动度量标准来评估生成的绕口令。此外,本文还介绍了一种Phoneme-Aware Constrained Decoding模块(PACD),可以用于生成高质量的绕口令。
  • 相关研究
    最近的相关研究主要集中在押韵和诗歌等领域。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论