【论文速读】是OpenBMB发起的大模型论文学习栏目,用 高效的思维导图 形式,带领大家在 10min 内快速掌握一篇 前沿经典 论文。我们邀请来自清华大学自然语言处理实验室以及各大高校、科研机构的 学术达人 作为主讲人分享 大模型领域论文。


 

本期论文速读带大家回顾首个交互式搜索中文问答开源模型——WebCPM: Interactive Web Search for Chinese Long-form Question Answering (ACL 2023),由论文作者之一、面壁智能实习生严澜进行领读。

B站视频链接: 【THUNLP成员介绍首个交互式搜索中文问答开源模型 WebCPM【OpenBMB论文速读】第 9 期】 https://www.bilibili.com/video/BV1ek4y1P7pJ/?share_source=copy_web&vd_source=916598523e4969bdbb95f2503d1ee9d4

 


 

 01  作者信息 

    • Yujia Qin, Zihan Cai, Dian Jin, Lan Yan, Shihao Liang, Kunlun Zhu, Yankai Lin, Xu Han, Ning Ding, Huadong Wang, Ruobing Xie, Fanchao Qi, Zhiyuan Liu, Maosong Sun, Jie Zhou

    • 论文作者均来自THUNLP实验室
 

 02  论文简介 

关键词   KeyWords
Long-form QA
Interactive Web Search
LLM
 
研究背景   Background 

01 长篇问答(Long-formQA)

    • 目标:以详细的、段落长度的回应回答的开放式问题

    • 范式:信息检索和信息合成

    • 传统范式的缺点:常依赖非交互式的检索方法

02 人类的交互式网页搜索(Interactive Web Search)

      • 功能:实时与搜索引擎互动

      • 方法:分解复杂问题,顺序提问,通过相关信息提高主题理解,提出后续问题优化搜索

03 WebGPT   https://openai.com/research/webgpt
    • WebGPT 构建了一个由 Bing 支持的 Web 搜索界面,然后招募标注员收集信息以回答问题。之后,他们对 GPT-3 进行微调,以模仿人类在 Web 搜索和信息综合方面的行为

    •  缺点:界面、数据集和训练模型不公开

04 WebCPM(我们的工作)

    • 构建 开源的 交互式网页搜索 (Interactive Web Search) 界面记录网页搜索行为

    • 构建 第一个 交互式网页搜索的公开问答数据集 IWSQA,同时也是 第一个 中文的长篇问答 (Long-formQA) 数据集

    • 框架、模型的部署和实现

 


 03  数据集(IWSQA)

👇 交互式网页搜索(Interactive Web Search)界面

IWSQA 包含了 5500 个高质量的问题-答案对,以及 14315 个支持事实和 121330 个 Web 搜索动作。

数据格式为:<问题,Web搜索动作,支持事实,答案>。

 


 04  研究设计和结论 

框架:搜索模型+信息综合模型
搜索模型包括:动作预测模块、搜索查询生成模块、支持事实提取模块

实验及结果

A. 子任务评估

方法:

  • 选择 8 个代表性的预训练语言模型,评估其交互式网页搜索和信息合成的能力

  • 评估 4 个子任务模块

    • 动作预测 (MicroF1,MacroF1)

    • 搜索查询生成 (Rouge-L)

    • 支持事实提取 (Rouge-L)

    • 信息综合 (Rouge-L) 
结果:

 

B. 整体流程评估

方法:

  • 模型生成的答案 vs 人类标注

  • 给综合模型三个支持事实来源(1)流水线收集的(2)人工收集的(3)非交互式搜索(TF-IDF)

  • 流水线生成的答案 vs DuReader中的原始答案

  • 在DuReader中使用两个子数据集:Search和Zhidao

结果:

人类评估显示,在测试集上,我们的流程生成的答案在 32.5% 的时间内不逊于人类。当应用到 DuReader 的问题时,我们的流程在 47.5% 的情况下生成比标注的答案更好的答案,显示出令人满意的分布外泛化性能。结果还显示,我们的搜索模型超越了传统的非交互式检索方法。

 


 05  论文贡献 

在本论文中,我们为中文长文本问答构建了一个交互式网页搜索基准,并提供了开源的界面。我们将长文本问答任务分解为 4 个子任务,并设计了一套模块化的流程。各个模块中,对代表性 LLM 进行微调,对每个模块和整个流程进行了评估。

我们的流程生成的答案在 32.5% 的时间内不逊于人类;当应用到 DuReader 的问题时,我们的流程在 47.5% 的情况下生成比标注的答案更好的答案,显示出令人满意的分布外泛化性能。

 

 ▾ 传送门   论文链接 

🔗 https://arxiv.org/abs/2305.06849

▾ 传送门  WebCPM数据与代码   
https://github.com/thunlp/WebCPM

 


 ▾   公众号回复 「论文速读」
即可获得高清完整版思维导图 

 

我们为读者准备了一份高清思维导图,包括了论文中的重点亮点以及直观的示意图。点击下方名片 关注 OpenBMB ,后台发送“论文速读” ,即可领取论文学习高清思维导图和 FreeMind !

思维导图,关注回复“论文速读”获取高清完整版

 


本期论文速读视频版已发布于 视频号 和 B站 (视频讲解比文字阅读更加详细易懂),欢迎大家评论和分享~

以上是本期论文速读的全部内容,后续 OpenBMB 会围绕大模型介绍更多前沿论文,欢迎大家持续关注!

 ➤  加社群/ 提建议/ 有疑问 

请找 OpenBMB 万能小助手:

官方网站
https://www.openbmb.org
 
GitHub
https://github.com/OpenBMB
https://github.com/thunlp

长期开放招聘|含实习

开发岗  |  算法岗  |  产品岗

交流QQ群
735930538

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除