标题:马萨诸塞大学阿默斯特分校、谷歌|RANKGEN: Improving Text Generation with Large Ranking Models(RANKGEN:使用大型排序模型改进文本生成)
作者:Kalpesh Krishna, Yapei Chang, John Wieting, Mohit Iyyer
简介:本文研究了文本生成中的字符选择算法。给定一个输入序列(或前缀),现代语言模型通常将高概率分配给重复、不连贯或与前缀无关的输出序列;像这样,模型生成的文本也包含此类工件。为了解决这些问题,作者提出RANKGEN,一种编码器模型(1.2B 参数),它对给定的模型生成进行字首评分。 RANKGEN 可以灵活地作为一个评分功能加入到约束搜索中并用于从任何预训练的语言模型中解码。作者使用大规模对比学习来训练 RANKGEN 来映射前缀关闭到它后面的真实序列并且远离两种类型的底片:(1) 来自与前缀相同的文档的随机序列,以及 (2) 从大型语言模型在前缀上生成的序列。四种不同语言模型的实验(345M-11B 参数)和两个领域表明,RANKGEN 显著优于解码算法,如核、top-k 和典型采样自动指标(85.0 vs 77.3 MAUVE)为以及对英语作家的人工评价(74.5% 的人工偏好高于核心采样)。分析表明,RANKGEN与前缀相比,输出与前缀更相关,并提高了连续性和连贯性基线。作者开源了作者的模型、代码和参数,并为未来的研究提供了详细的解释。
地址下载:https://github.com/martiansideofthemoon/rankgen
论文下载:https://arxiv.org/pdf/2205.09726v1.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢