【标题】RLPrompt: Optimizing Discrete Text Prompts with Reinforcement Learning
【作者团队】Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh
【发表日期】2022.10.22
【论文链接】https://arxiv.org/pdf/2205.12548.pdf
【推荐理由】提示在使大型预训练语言模型(LM)能够执行多种NLP任务方面取得了令人印象深刻的成功。然而,自动找到每个任务的最佳提示是一项挑战。大多数现有的工作都依赖于调整软提示,这不具备可解释性、跨LM的可重用性以及梯度不可访问时的适用性。另一方面,离散提示很难优化,通常由“枚举-选择”启发式创建,这些启发式没有系统地探索提示空间。本文提出了RLPrompt,一种具有强化学习(RL)的高效离散提示优化方法。RLPrompt制定了一个参数有效的策略网络,该策略网络在有奖励的训练后生成期望的离散提示。为了克服大型LM环境下奖励信号的复杂性和随机性,引入了有效的奖励稳定,大大提高了训练效率。RLPrompt灵活地适用于不同类型的LM。少镜头分类和无监督文本风格转移的实验表明,与广泛的现有微调或提示方法相比,性能优越。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢