Self-Supervised Prompt Optimization

简介

精心设计的提示对于增强大型语言模型（LLMs）的推理能力，并使其输出与跨不同领域的任务要求保持一致至关重要。然而，手动设计的提示需要专业知识和反复试验。虽然现有的提示优化方法旨在自动化这一过程，但它们严重依赖外部参考，如真实情况或人工评估，这限制了它们在现实世界场景中的适用性，在这些场景中，获取此类数据可能不可用或成本高昂。为了解决这一问题，我们提出了自我监督提示优化（SPO），这是一种成本效益高的框架，可以在不需要外部参考的情况下发现适用于封闭式和开放式任务的有效提示。基于提示质量直接体现在LLM输出中，且LLM能够有效评估对任务要求的遵循性的观察，我们完全从输出比较中得出评估和优化信号。具体来说，SPO通过由LLM评估器进行的成对输出比较选择更优的提示，随后由LLM优化器将输出与任务要求对齐。广泛的实验表明，SPO优于最先进的提示优化方法，在显著降低成本（例如现有方法的1.1%到5.6%）和减少样本量（例如三个样本）的情况下，达到相当或更好的结果。代码可在https://github.com/geekan/MetaGPT/blob/main/examples/spo 获取。
图表
解决问题

该论文旨在解决现有提示优化方法对人工标注或外部参考（如真实数据）的依赖问题，这在实际应用中可能不可行或成本过高。因此，提出了一种无需外部参考即可优化提示的方法。
关键思路

关键思路是通过自监督学习框架（Self-Supervised Prompt Optimization, SPO），利用大型语言模型（LLMs）自身的评估能力来优化提示。具体来说，SPO通过两两比较LLM输出并由另一个LLM评估这些输出的质量，从而选择更优的提示。这一方法不仅减少了对外部数据的依赖，还显著降低了成本和样本需求。
其它亮点

1. 实验结果表明，SPO在性能上可以与现有的最先进方法相媲美甚至超越，但成本仅为后者的1.1%到5.6%，且仅需三个样本。 2. 研究团队开源了代码，使得其他研究人员可以复现和进一步改进这一方法。 3. SPO适用于封闭式和开放式任务，展示了其广泛的适用性。 4. 论文指出未来研究可以探索如何将SPO应用于更多不同类型的自然语言处理任务。
相关研究

最近在这个领域内的相关研究包括： 1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models' - 探索了通过链式思维提示来提升LLM的推理能力。 2. 'Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm' - 研究了超出少样本范式的提示编程技术。 3. 'Automatic Prompt Engineer: A Reinforcement Learning Approach' - 提出了使用强化学习自动设计提示的方法。 4. 'Learning to Prompt for Vision-Language Models' - 关注视觉-语言模型中的提示学习。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论