- 简介基础模型正越来越多地以黑箱服务的形式部署,其模型权重无法修改,定制化只能通过提示词(prompting)实现。尽管静态提示优化已展现出一定潜力,但它仅生成单一固定的提示,难以根据不同输入、用户或环境进行自适应调整。我们提出了“顾问模型”(Advisor Models),这是一种轻量级的参数化策略,通过强化学习训练,能够在上下文中动态地向黑箱模型发出自然语言的引导指令。该顾问模型是一个小型的中间层模型,位于输入与主模型之间,利用来自环境的奖励信号,针对每个具体实例动态调节主模型的行为。在涉及推理和个性化等多个领域的任务中,我们证明了顾问模型优于静态提示优化方法,能够发现环境中的动态规律,并提升下游任务的表现。我们还展示了顾问模型的泛化能力,包括在不同黑箱模型之间的迁移应用,以及该框架在保持对分布外输入鲁棒性的同时实现专业化的潜力。从更广泛的角度来看,顾问模型为黑箱系统提供了一种可学习的交互接口,其中顾问充当了一个参数化的、针对特定环境的记忆模块。我们认为,通过顾问模型对黑箱模型进行动态优化,是实现具备前沿能力的个性化、环境自适应人工智能的一条极具前景的方向。
-
- 图表
- 解决问题论文试图解决在黑盒大模型服务中无法修改模型权重、只能通过提示(prompting)进行定制的问题。传统的静态提示优化方法生成单一固定提示,难以适应不同输入、用户或环境的变化,限制了个性化和环境适应能力。这是一个随着大模型服务化而日益突出的新问题。
- 关键思路提出Advisor Models,即使用一个轻量级的参数化策略模型,通过强化学习训练,动态地为黑盒大模型生成上下文中的自然语言引导指令。Advisor模型作为输入与主模型之间的中介,基于环境反馈的奖励信号,在每个实例上实时调整行为,实现对黑盒模型的动态优化。相比静态提示,该方法具有反应性和自适应性,是首次将可学习的、动态提示策略用于黑盒模型控制的框架。
- 其它亮点在多个涉及推理和个性化的任务中,Advisor Models优于静态提示优化方法,能够发现环境动态并提升下游任务性能;展示了Advisor的跨模型迁移能力,可在不同黑盒模型间转移;框架在实现专业化的同时保持对分布外输入的鲁棒性;实验涵盖了多种应用场景,验证了其通用性;论文提出了“可学习接口”的新范式,将Advisor视为环境特定的参数化记忆。目前尚未提及开源代码,但该方向值得深入探索,例如在真实用户交互系统中的部署、多模态扩展等。
- 1. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 2. Automatic Prompt Optimization with "Gradient Descent" and its Application to Mechanical Turk 3. PromptAgent: Improving Zero-Shot Reasoning in Large Language Models via Self-Adaptive Prompting 4. Reinforced Instruction Tuning: Reward-guided Language Model Editing 5. LORA: Low-Rank Adaptation of Large Language Models
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流