近年来,包括 GPT-2 在内的大型语言模型在文本生成方面非常成功,然而,大型语言模型会生成不连贯的长文本。一个原因是不能提前计划或表征长段文本动态。因此,它们常常产生游离的内容,语篇结构差,关联性低 ; 文本在生成时似乎没有锚定目标。当自回归模型生成更长的文本时,这些连贯性问题进一步恶化,因为模型很难推断超出其预期的文本终点。这些问题表明,大型语言模型目前无法正确捕捉文档从开始到结束的演变过程,而这对于完成面向目标的任务至关重要,例如故事、对话或菜谱生成。
但是,使用学习的局部动态去生成精准的 goal-conditioned trajectories 是很难的,尤其是长跨度的 trajectories。
在近期的一项研究中,斯坦福大学的研究者探索了一种替代方案,该替代方案明确假设了具有 goal-conditioned 生成的简单、固定动态模型。这种新颖的方法提高了长文本生成的性能,人类评估者对其输出的评分比基线方法高 28.6%。
研究者提出了时间控制(Time Control),作为学习已知 goal-conditioned 动态的潜在空间的方法。他们假设非目标导向生成的 meandering 文本在潜在空间内可以表征为布朗运动,这种运动使得相邻句子的嵌入变得更为相似,相距较远的句子相异。借助固定的开始和结束节点,目标导向的行为能够合并进该模型。在这种情况下,布朗运动变为了布朗桥,由此产生的潜在轨迹遵循简单的封闭式动态。
论文链接:https://arxiv.org/pdf/2203.11370.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除