【论文标题】MATCH: Metadata-Aware Text Classification in A Large Hierarchy
【作者团队】Yu Zhang, Zhihong Shen, Yuxiao Dong, Kuansan Wang, Jiawei Han
【发表时间】2021/2/15
【机构】UIUC韩家炜团队 & 微软研究院
【论文链接】https://arxiv.org/pdf/2102.07349.pdf
【代码链接】https://github.com/yuzhimanhua/MATCH
【推荐理由】本文已被WWW2021接收,文章提出了一个同时利用元数据和标签层次结构信号的多标签文本分类框架MATCH。
多标签文本分类是指从一个标签集中为每个给定的文档分配其最相关的标签的问题。通常,给定文档的元数据和标签的层次结构在真实应用场景下都是可用的。然而,现有的研究大多只关注于文本信息的建模,也有少数尝试使用元数据或层次信号,但都没有同时使用它们。在本文中,作者通过在一个大的标签层次结构(例如,有成千上万个标签)中形式化元数据感知文本分类的问题来弥补这一差距。基于此,文章提出了MATCH解决方案——一个利用元数据和层次结构信息的端到端框架。为了整合元数据,作者预先训练了文本和元数据在同一空间的嵌入,并利用完全连接的注意力来捕捉它们之间的相互关系。为了充分利用标签层次结构,作者提出了不同的方法来规整每个子标签的参数和输出概率。最后,在两个具有大规模标签层次的大规模文本数据集上进行的大量实验证明了在最先进的深度学习基线上匹配的有效性。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢