Towards Verifiable Text Generation with Symbolic References

简介

大型语言模型(LLMs)展示了合成真实而流畅文本的惊人能力。然而，它们仍然容易出现幻觉，因此它们的输出通常需要人工验证以用于高风险应用，这可能是耗时且困难的。本文提出了符号基础生成(SymGen)作为一种简单的方法，以便更容易验证LLM的输出。SymGen提示LLM将其常规输出文本与一些条件数据中存在的显式符号引用交错。这些引用可用于显示生成的不同文本片段的来源，从而减少了人工验证所需的工作量。在数据到文本和问答实验中，我们发现LLMs能够直接输出利用符号引用的文本，同时保持流畅性和准确性。
图表
解决问题

论文试图解决LLMs输出验证困难的问题，提出了一种基于符号引用的生成方法(SymGen)。这是否是一个新问题？
关键思路

论文提出了一种简单的方法，通过在LLMs的输出文本中插入符号引用，使得输出的文本易于验证。相比之前的研究，该方法的新意在于直接在LLMs的生成文本中使用符号引用，且不影响文本的流畅性和准确性。
其它亮点

论文的实验设计了数据到文本和问答两个任务，证明了该方法的有效性。论文还提供了开源代码和使用的数据集，方便其他研究者进行复现和进一步研究。值得进一步深入研究。
相关研究

近期相关研究包括使用规则来验证LLMs输出的工作，以及使用可解释性技术来解释LLMs的工作原理。相关论文包括：'Rule-based Fact Verification in Knowledge Graphs with Graph Convolutional Networks'和'Interpretability Beyond Feature Attribution: Quantitative Testing with Concept Activation Vectors (TCAV)'。

Towards Verifiable Text Generation with Symbolic References

评论