如何从大规模文本中挖掘知识是个重要问题。最近数据挖掘大师韩家炜做了“从海量非结构化文本中挖掘结构化知识”报告,阐述了最新文本挖掘方面的进展,非常值得关注!

现实世界的大数据很大程度上是动态的、相互关联的、非结构化的文本。将这种海量的非结构化数据转化为结构化知识是一个迫切需要解决的问题。许多研究人员依靠人工作业的标签和管理从这些数据中提取知识。然而,这种方法是不可扩展的。我们认为,大量文本数据本身可能会揭示大量隐藏的结构和知识。通过预训练的语言模型和文本嵌入方法,可以将非结构化数据转化为结构化知识。在这次演讲中,我们介绍了我们小组最近开发的一套用于此类探索的方法,包括联合球形文本嵌入、判别性主题挖掘、分类法构建、文本分类和基于分类法的文本分析。我们证明了数据驱动方法在将海量文本数据转化为结构化知识方面是有前途的。

目录内容:

  • 动机 Motivation: Mining Unstructured Text for Structured Knowledge

  • 理解语义Understanding Semantics: Text Embedding and Spherical Text Embedding (JoSE)

  • 主题挖掘 Weakly Supervised, Discriminative, Hierarchical Topic Mining (CaTE, JoSH)

  • 自动分类法构建 Automated Taxonomy Construction and Enrichment

    • SetExpan, SetCoExpan, CGExpan, HiExpan, CoRel

    • Automated Taxonomy Enrichment (TaxoExpan)

  • 文档分类 Document Classification by Weak Supervision

    • Weakly supervised: Using Category-Names Only (LOTClass)

    • Weakly Supervised Multiclass Classification Using Taxonomy (TaxoClass)

  • Looking Forward

内容中包含的图片若涉及版权问题,请及时与我们联系删除