E-KAR：首个中英双语可解释类比推理数据集

类比在人类认知中占有重要地位，通过类比可以发现新的见解和证明日常的推理，比如老师在课堂上用煮熟的鸡蛋类比地球的构造，使得学生很快理解了不能亲自体验的知识。由于在多个领域有着独特价值，类比成为了人工智能研究领域的重要问题。

在 NLP 中，我们比较熟悉的是以多选题形式出现的词类比识别问题，然而现有的词类比数据集关注简单的二元类比关系，并且缺乏用于届时类比推理过程的标注信息。因此，解答这一类问题并不能揭示神经网络模型类比推理的内在过程，这对探究类比的内部性质来说是不利的[6]。我们亟需一类更困难的、可解释的类比推理数据集。

知识工场实验室与字节跳动人工智能实验室等机构合作构建了首个可解释的知识密集型类比推理数据集E-KAR，由 1,655 个（中文）和 1,251 个（英文）来自中国公务员考试的问题组成，并提出了类比推理问题的两个基准任务，用于教会和验证模型学习类比的能力，相关工作已经被 ACL 2022 Findings 接收。