- 简介大型语言模型(LLMs)促进了结构化数据生成,应用于诸如表格数据、文档数据库、产品目录等领域。然而,由于引用不正确或产生幻觉而导致生成真实性的担忧仍然存在,这需要加入某种形式的模型置信度以进行缓解。现有的LLM生成置信度评估方法主要关注单个标记级别或整个输出序列级别的置信度,限制了它们在结构化数据生成中的适用性,而这种数据生成由子结构级别的独立和相关条目的复杂混合组成。在本文中,我们首先研究了生成的子结构级别数据的置信度评估方法。我们引入了置信度网络的概念,该网络应用于LLM变压器的隐藏状态,作为比传统标记条件概率更有针对性的估计。我们进一步提出了置信度感知子结构束搜索(CABS),一种新颖的在结构化数据生成的子结构级别上操作的解码方法。CABS通过考虑置信度网络对每个子结构级别数据的置信度分数并迭代地优化提示来增强结构化数据生成的忠实度。结果表明,在产品属性生成问题上,CABS相比传统的标记级别束搜索平均提高了16.7%的90%精度召回率。
-
- 图表
- 解决问题论文试图解决在结构化数据生成中,如何提高生成准确性和可信度的问题,针对现有置信度评估方法的局限性提出新的置信度评估方法和解码方法。
- 关键思路论文提出了置信度网络和置信度感知子结构束搜索(CABS)两种方法,分别对生成的子结构和整体输出进行置信度评估,并在结构化数据生成任务中进行实验,证明 CABS 方法相较于传统的基于单个词语的束搜索方法,可以提高 16.7% 的召回率。
- 其它亮点论文使用了 Transformer 模型,在结构化数据生成任务中进行实验,使用的数据集是商品属性生成数据集。论文提出的 CABS 方法可以提高生成结果的准确性和可信度,同时也可以用于其他领域的结构化数据生成任务。论文还开源了代码。
- 在近期的相关研究中,也有学者尝试提高结构化数据生成的准确性和可信度,例如《Improving Conditional Sequence Generation with Deep Reinforcement Learning via Uncertainty-Driven Exploration》、《Structured Data-to-Text Generation with Tree-Edit Distance》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流