- 简介在这项工作中,我们明确表明现代LLM倾向于先生成正确的事实,然后“偏离”并生成错误的事实:这种情况偶尔被观察到,但从未得到正确的衡量。我们开发了一种语义漂移分数,用于衡量生成文本中正确和错误事实之间的分离程度,并在生成维基百科式传记时验证了我们的假设。这种先正确后错误的生成模式表明,通过知道何时停止生成,可以提高事实准确性。因此,我们探讨了几种早期停止方法在信息数量和事实准确性之间的权衡,并成功地大幅提高了事实准确性。我们进一步表明,使用语义相似性重新排序可以进一步改善这些结果,无论是与基线相比还是与早期停止相结合。最后,我们尝试调用外部API将模型带回正确的生成路径,但没有得到积极的结果。总体而言,我们的方法具有普适性,可以应用于任何长篇文本生成,以产生更可靠的信息,平衡事实准确性、信息数量和计算成本之间的权衡。
- 图表
- 解决问题本论文旨在解决现代LLMs在生成文本时,先生成正确的事实,然后“偏离”并生成不正确的事实的问题,探索何时停止生成以平衡信息数量和事实准确性的权衡,并提出了语义漂移得分来度量正确和不正确事实之间的分离程度。
- 关键思路本论文的关键思路是通过早期停止方法和语义相似性重新排序方法来改善长篇文本生成的事实准确性,平衡信息数量和计算成本之间的权衡。
- 其它亮点论文提出了语义漂移得分来度量正确和不正确事实之间的分离程度,实验结果表明,使用早期停止方法和语义相似性重新排序方法可以显著提高事实准确性,论文还提到了使用的数据集和实验设计,但没有开源代码。
- 最近在这个领域中,还有一些相关研究,如《GPT-3》和《CTRL》。
沙发等你来抢
去评论
评论
沙发等你来抢