Universal Self-Consistency for Large Language Model Generation

简介

自我一致性与思维链提示（CoT）通过利用从大型语言模型（LLMs）中采样的多个推理路径，在各种具有挑战性的任务中展示了显着的性能提升。然而，自我一致性依赖于答案提取过程来聚合多个解决方案，这对自由形式的答案不适用。在本研究中，我们提出了通用自我一致性（USC），它利用LLMs本身来选择多个候选答案中最一致的答案。我们在各种基准测试中评估了USC，包括数学推理、代码生成、长文本摘要和开放式问题回答。在原始的自我一致性方法不适用的开放式生成任务中，USC有效地利用多个样本并提高了性能。对于数学推理，USC在不要求答案格式相似的情况下与标准的自我一致性表现相匹配。最后，在没有访问执行结果的情况下，USC也与基于执行的投票表现相匹配，用于代码生成。
图表
解决问题

本论文尝试解决使用自洽性方法在自由形式答案上的局限性，并提出了一种新的方法Universal Self-Consistency (USC)。
关键思路

USC使用大型语言模型自身来选择多个候选答案中最一致的答案，从而解决了自由形式答案上自洽性方法的局限性。
其它亮点

论文在数学推理、代码生成、长文本摘要和开放式问答等多个基准测试上评估了USC的性能，并展示了USC在开放式生成任务中的有效性。此外，USC还能够在不需要相似答案格式的情况下匹配标准自洽性方法在数学推理中的性能，并且在代码生成中能够匹配基于执行结果的投票方法的性能。
相关研究

最近在这个领域中，也有一些研究使用大型语言模型来解决自洽性方法的局限性，如GShard、LARGE等。

Universal Self-Consistency for Large Language Model Generation

评论