Diver: Large Language Model Decoding with Span-Level Mutual Information Verification

简介

大型语言模型（LLMs）已经展示了惊人的能力，当提供任务特定的指令时，它们可以适应各种任务。然而，使用标准解码策略的LLMs通常难以处理与输入的偏差。直观地说，符合要求的LLM输出应该反映输入中存在的信息，这可以通过点对点互信息（PMI）得分来衡量。因此，我们提出了Diver，一种通过跨度级别的PMI验证增强LLM解码的新方法。在推理过程中，Diver首先识别可能导致多个候选跨度的分歧步骤。随后，它通过评估如果生成候选跨度时输入的对数似然增益来计算PMI得分。最后，基于PMI重新排名的输出分布选择最佳跨度。我们在各种下游任务中评估了我们的方法，实证结果表明，Diver在性能和通用性方面都显著优于现有的解码方法。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文旨在提出一种新的方法，通过跨度级别的点互信息验证来增强LLM解码，以解决标准解码策略在面对输入偏差时的困难。
关键思路

Diver是一种新的方法，它通过计算候选跨度的PMI分数来选择最佳跨度，从而提高了LLM的解码能力。
其它亮点

该论文在多个下游任务中进行了实验，结果表明Diver在性能和适用性方面都显著优于现有的解码方法。该论文还使用了多个数据集进行了实验，并提供了开源代码。
相关研究

最近的相关研究包括：《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》、《Improving Language Understanding by Generative Pre-Training》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。

Diver: Large Language Model Decoding with Span-Level Mutual Information Verification

提问交流

提问交流