事件检测任务是事件抽取的第一步,对事件语义建模有重要意义。然而现有事件检测数据集存在两个严重的问题:
- 数据稀缺,现有小规模数据集不足以充分训练和稳定评测复杂的神经网络模型;
- 覆盖率低,现有数据集关心的有限数据类型不足以覆盖通用域中的广泛事件语义,也限制了事件检测模型的应用范围。
为了缓解这些问题带来的影响,本文构建了一个大规模通用域事件检测数据集MAVEN,它包含4480篇文章和118732个事件实例,覆盖了168种事件类型。同时也在MAVEN数据集上复现了一系列当前最佳的模型并进行了全面的实验。实验结果显示在传统数据集上表现极好的模型并不能在MAVEN上也取得理想的表现,这表明事件检测仍是一个具有挑战性的方向。本文也通过一些实证分析讨论了事件检测任务后续的发展方向。
本篇文章AI TIM邀请到了清华大学计算机系的博士一年级研究生王晓智向大家分享这项研究工作,感兴趣的可以戳原文。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢