- 简介我们介绍了迭代检索,这是一个新颖的框架,它通过策略优化使检索器能够做出迭代决策。找到一组检索项的最佳组合是一个组合优化问题,通常被认为是NP难问题。这种方法提供了一个学习逼近这种解决方案的方法,以满足给定大型语言模型(LLMs)族群下的具体任务要求。我们提出了一个基于强化学习的训练过程,结合LLMs的反馈。我们为组成上下文学习(ICL)示例实例化了一个迭代检索器,并将其应用于各种需要合成程序作为输出的语义解析任务中。通过仅添加4M额外的状态编码参数,我们将现成的密集检索器转换为有状态的迭代检索器,在语义解析数据集(如CalFlow、TreeDST和MTOP)上的ICL示例选择方面优于以前的方法。此外,训练的迭代检索器在超出训练期间使用的LLMs的不同推理LLMs之间具有泛化能力。
- 图表
- 解决问题本论文旨在解决组合优化问题中的最优检索组合问题,并提出了一种基于强化学习的迭代检索方法。
- 关键思路本论文提出了一种基于强化学习的迭代检索方法,通过学习最优检索策略来解决最优检索组合问题。
- 其它亮点本文提出的迭代检索方法在语义解析任务中表现出色,优于之前的方法,并且在不同的语言模型上具有通用性。实验使用的数据集包括CalFlow,TreeDST和MTOP。此外,本文提出的方法还提供了一种基于强化学习的训练程序。
- 最近的相关研究包括使用注意力机制进行检索的方法以及使用神经网络进行组合优化的方法。
沙发等你来抢
去评论
评论
沙发等你来抢