报告主题:通过强化学习训练大型语言模型进行推理与搜索引擎调用

报告日期:05月08日(本周四)10:30-11:30

报告要点:

为了实现高效的推理与文本生成,大型语言模型(LLMs)越来越需要实时访问外部知识。虽然在推理过程中提示LLMs发起搜索查询是一种常见策略,但由于模型并未专门训练以高效地与搜索引擎交互,这种方式往往效果有限。在本次报告中,我将介绍 Search-R1,一个创新的强化学习(RL)框架,旨在训练大型语言模型在推理过程中自主生成并优化搜索查询。
Search-R1 支持推理过程中多轮搜索交互,并通过检索结果掩码和基于结果驱动的简单奖励,保障了强化学习训练的稳定性。在七个问答基准数据集上的实验表明,Search-R1 相比强大的检索增强基线方法带来了最高41%的性能提升。报告中,我还将分享在强化学习设计、模型规模扩展行为以及检索增强推理中响应长度作用等方面的实践经验。代码与模型已开源:https://github.com/PeterGriffinJin/Search-R1
报告嘉宾:

金博文是伊利诺伊大学厄本那-香槟分校(UIUC)计算机科学系的博士四年级学生,师从韩家炜教授。他获得了 Apple 博士奖学金(Apple PhD Fellowship)和鲍云妮-鲍美心纪念奖学金(Yunni and Maxine Pao Memorial Fellowship)的资助。他的研究兴趣主要集中在大型语言模型(LLMs)、多模态学习与信息网络的交叉领域,特别关注基础模型如何融合文本、网络和多模态数据,来解决信息检索与知识发现等现实世界问题。目前,他的研究兴趣包括 LLM Agent、推理与强化学习(RL)。他以第一作者身份在 ICLR、ICML、NeurIPS、KDD、SIGIR、ACL、COLM 和 EMNLP 等国际顶级会议上发表了多篇论文。

更多信息请访问他的个人主页:https://hub.baai.ac.cn/users/106296。

图片

扫码报名

内容中包含的图片若涉及版权问题,请及时与我们联系删除