ACL2022 | WikiDiverse:一个主题和实体类型多样化的多模态实体链接数据集

实体链接，即把文本中出现的命名实体链接到知识图谱中对应的实体上，是一个广受关注的任务，它对于信息抽取、问答系统、语义检索等多个任务都有重要的意义。近年来，随着越来越多的信息以多模态的形式出现(本文特指图片+文本)，因此亟需多模态实体链接的数据集以进行研究。

尽管在这一领域已有一些相关工作贡献了数据集，但是它们存在一定的缺陷：

1)有限的主题类型;

2)有限的实体类型;

3)有限的歧义现象;

4)是否开源易获取等。

针对这个问题，我们提出了一个多模态实体链接数据集。为构建这一数据集，我们基于多个角度的考虑：

首先，我们综合参考现有的实体链接数据集、分析图文匹配程度、实体消歧难度等信息，采用WikiNews的“图片-标题”对作为原始数据，将Wikipedia作为对应的知识图谱。

其次，我们采集了体育、政治、娱乐、灾难、科技、犯罪、经济、教育、健康、天气主题的图文对，并进行了质量低下、色情、暴恐信息的清洗，对图片类型进行了归一化(因为部分图片为gif等格式)，从而保证数据的高覆盖性和质量。

最后，我们引入了众包标注平台进行数据标注，在此过程中设计了详细的标注规范，特别地，我们关注人物、组织、地点、国家、事件、作品(包含图书、画作等)、其他等多个实体类型。

内容中包含的图片若涉及版权问题，请及时与我们联系删除