- 简介大型语言模型(LLMs)通过强大的提示技术在各种自然语言处理任务中发挥了基础性作用。然而,在实际应用中,重复查询通常具有相似的提示组件,这会在推理过程中造成重大的计算负担。现有的提示压缩和直接微调方法旨在解决这些挑战,但它们经常难以在成本效益和性能有效性之间取得最佳平衡,特别是在复杂任务如NL2Code中。在本文中,我们提出了一种新的方法,即PromptIntern,通过渐进微调将提示知识内部化到模型参数中。我们的方法使LLMs能够模拟人类学习过程,逐渐将提示中的详细模板和示例内部化,并随着模型逐渐适应任务而逐步淘汰。广泛的实验表明,我们的方法可以将推理标记减少超过90%,推理速度提高4.2倍,并节省88.3%的货币成本。
- 图表
- 解决问题本论文旨在解决大型语言模型在重复查询中存在的计算负担问题,提出了一种名为PromptIntern的新方法,旨在通过渐进式微调将提示知识内部化到模型参数中,以提高效率和性能。
- 关键思路PromptIntern方法通过逐步将详细的模板和示例内部化到模型参数中,使LLMs能够模拟人类学习过程,从而在新任务上进行更有效的推理。
- 其它亮点该方法可以将推理标记减少90%以上,推理速度提高4.2倍,节省88.3%的货币成本。实验表明,PromptIntern方法在复杂任务(如NL2Code)中具有很高的性能。
- 相关研究包括Prompt压缩和直接微调方法,但它们往往难以在成本效益和性能效果之间达到最佳平衡。
沙发等你来抢
去评论
评论
沙发等你来抢