- 简介大型语言模型(LLM)驱动的智能体的出现,通过基于网络的信息检索(IS)能力,使人工智能在解决复杂且开放性的任务方面发生了革命性的变化。然而,高质量训练数据的匮乏限制了信息检索智能体的发展。现有的方法通常采用一种以信息为中心的范式,即首先收集网络数据,然后基于检索结果生成问题。但这种方法可能导致信息结构与推理结构、问题与答案之间出现不一致。为缓解这一问题,我们提出了一种以形式化驱动的信息检索数据合成框架WebShaper,用于构建高质量的数据集。 WebShaper通过集合论对信息检索任务进行系统的形式化表达。其核心在于“知识投影”(Knowledge Projections,KP)这一概念,它通过KP操作的组合,实现了对推理结构的精确控制。在数据合成过程中,我们首先创建初始任务,然后采用多步骤扩展流程逐步生成更复杂的任务。在每一步中,一个具备代理能力的“扩展器”(Expander)会基于我们的形式化框架,利用检索和验证工具将当前的问题形式逐步扩展得更为复杂。我们使用该合成数据集对模型进行训练。实验结果表明,WebShaper在GAIA和WebWalkerQA两个信息检索智能体基准测试中,在开源模型中达到了最先进的性能水平。
- 图表
- 解决问题论文旨在解决信息获取(Information-Seeking, IS)代理的训练数据稀缺问题。当前的方法通常采用信息驱动范式,先收集网页数据,然后基于检索生成问题,这可能导致信息结构与推理结构、问题与答案之间的不一致。
- 关键思路论文提出了一种形式化驱动的信息获取数据合成框架WebShaper。该框架通过集合论对IS任务进行系统形式化,引入了“知识投影(Knowledge Projections, KP)”的概念,使推理结构可以通过KP操作组合进行精确控制。合成过程从种子任务开始,通过多步扩展过程,利用基于形式化的检索和验证工具逐步生成更复杂的问题。
- 其它亮点1. WebShaper通过形式化方法解决IS任务中信息结构与推理结构不一致的问题。 2. 提出了KP(Knowledge Projections)概念,实现对推理结构的精细控制。 3. 实验结果显示WebShaper在GAIA和WebWalkerQA基准测试中达到开源IS代理中的SOTA水平。 4. 训练数据完全由合成生成,无需依赖人工标注数据。 5. 论文强调了形式化方法在任务建模中的作用,为未来研究提供了新方向。
- 1. 「Self-Consistency Improves Chain-of-Thought Reasoning in Language Models」 2. 「Program of Thoughts Prompting: Disentangling Computation from Reasoning for Arithmetic and Logical Tasks」 3. 「Reasoning with Language Models via Factored Representations」 4. 「WebGPT: Browser-assisted question-answering with human feedback」 5. 「REALM: Retrieval-Augmented Language Model Pre-Training」
沙发等你来抢
去评论
评论
沙发等你来抢