PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning

简介

大型语言模型（LLMs）通过强大的提示技术在各种自然语言处理任务中发挥了基础性作用。然而，在实际应用中，重复查询通常具有相似的提示组件，这会在推理过程中造成重大的计算负担。现有的提示压缩和直接微调方法旨在解决这些挑战，但它们经常难以在成本效益和性能有效性之间取得最佳平衡，特别是在复杂任务如NL2Code中。在本文中，我们提出了一种新的方法，即PromptIntern，通过渐进微调将提示知识内部化到模型参数中。我们的方法使LLMs能够模拟人类学习过程，逐渐将提示中的详细模板和示例内部化，并随着模型逐渐适应任务而逐步淘汰。广泛的实验表明，我们的方法可以将推理标记减少超过90％，推理速度提高4.2倍，并节省88.3％的货币成本。
图表
解决问题

本论文旨在解决大型语言模型在重复查询中存在的计算负担问题，提出了一种名为PromptIntern的新方法，旨在通过渐进式微调将提示知识内部化到模型参数中，以提高效率和性能。
关键思路

PromptIntern方法通过逐步将详细的模板和示例内部化到模型参数中，使LLMs能够模拟人类学习过程，从而在新任务上进行更有效的推理。
其它亮点

该方法可以将推理标记减少90％以上，推理速度提高4.2倍，节省88.3％的货币成本。实验表明，PromptIntern方法在复杂任务（如NL2Code）中具有很高的性能。
相关研究

相关研究包括Prompt压缩和直接微调方法，但它们往往难以在成本效益和性能效果之间达到最佳平衡。

PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning

评论