本文讲解丹琦和Scott在ACL2020上主讲的Tutorial——Open-Domain Question Answering。开放域问答之所以重要,是因为它是搜索引擎的终极形态。而搜索引擎的重要性就不必多说了,需求量大,商业模式成熟,以搜索引擎为入口的应用养活了谷歌、百度和一系列垂搜大厂,占据了当今互联网的大半壁江山。要是掌握了这门技术,前途不可估量。

这次的Tutorial,主要讲的是利用非结构化数据进行问答这一分支任务,也是当今场景最多的任务,毕竟结构化、半结构化数据有一定的获取成本。

从开放域问答兴起以来,可以分为以下四个阶段:

  • Pipeline:类似搜索引擎,分为Query理解、候选召回和答案抽取
  • Two-stage:对Pipeline进行简化,先用Retriever抽取候选,然后用Reader做阅读理解
  • End-to-end learning:用神经网络替换传统Retriever,尝试把Retriever和Reader一起训练
  • Retrieval-free models:不检索了,预训练都学会了,直接上模型就完了

PPT&视频:

https://github.com/danqi/acl2020-openqa-tutorial

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除