
本文讲解丹琦和Scott在ACL2020上主讲的Tutorial——Open-Domain Question Answering。开放域问答之所以重要,是因为它是搜索引擎的终极形态。而搜索引擎的重要性就不必多说了,需求量大,商业模式成熟,以搜索引擎为入口的应用养活了谷歌、百度和一系列垂搜大厂,占据了当今互联网的大半壁江山。要是掌握了这门技术,前途不可估量。
这次的Tutorial,主要讲的是利用非结构化数据进行问答这一分支任务,也是当今场景最多的任务,毕竟结构化、半结构化数据有一定的获取成本。
从开放域问答兴起以来,可以分为以下四个阶段:
- Pipeline:类似搜索引擎,分为Query理解、候选召回和答案抽取
- Two-stage:对Pipeline进行简化,先用Retriever抽取候选,然后用Reader做阅读理解
- End-to-end learning:用神经网络替换传统Retriever,尝试把Retriever和Reader一起训练
- Retrieval-free models:不检索了,预训练都学会了,直接上模型就完了
PPT&视频:
https://github.com/danqi/acl2020-openqa-tutorial
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢