近日,南京大学万维网软件研究组(Websoft)在人工智能评测集OpenBookQA上实现了突破,研发的GenMC模型取得了92%的正确率,首次达到了人类水平。
OpenBookQA是美国艾伦人工智能研究院(Allen Institute for AI)发布的问答技术评测集,由小学科学选择题组成,并提供了与之相关的核心科学事实作为课本。该评测集的目的是通过选择题考试,探究AI学习课本知识,以及在新的场景下利用知识的能力。除了课本知识以外,回答OpenBookQA中的问题还需要具备广泛的常识,这对AI带来了比较大的挑战。
GenMC受人类答题行为的启发而设计——先阅读题干,从自己脑海的背景知识中联想可能的解题线索,再带着线索理解和对比选项得出答案。
这项研究成果已被自然语言处理领域的重要国际会议NAACL 2022录用。
论文标题:
Clues Before Answers: Generation-Enhanced Multiple-Choice QA
论文链接:
https://arxiv.org/pdf/2205.00274.pdf
源码链接:
https://github.com/nju-websoft/GenMC
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢