Automated Construction of Theme-specific Knowledge Graphs

2024年04月29日
  • 简介
    尽管知识图谱(KGs)在各种任务中得到了广泛应用,例如问答和智能对话系统,但现有的KGs面临两个主要挑战:信息粒度和时效性的不足。这些问题严重阻碍了从KGs中检索和分析上下文中的细粒度和最新知识,尤其是在高度专业化的主题(例如专业科学研究)和快速发展的背景下(例如突发新闻或灾难跟踪)。为了解决这些挑战,我们提出了一个主题特定的知识图谱(即ThemeKG),这是从主题特定语料库构建的知识图谱,并设计了一个无监督的框架用于ThemeKG的构建(称为TKGCon)。该框架采用原始的主题特定语料库,生成一个高质量的KG,其中包括主题下的显著实体和关系。具体而言,我们从维基百科的主题实体本体开始,基于此生成候选关系,以构建关系本体。为了解析主题语料库中的文档,我们首先将提取的实体对映射到本体,并检索候选关系。最后,我们将上下文和本体结合起来,巩固实体对的关系。我们观察到,直接提示GPT-4进行主题特定的KG会导致不准确的实体(例如在查询结果中将“两种主要类型”视为一个实体)和不明确(例如“is”,“has”)或错误的关系(例如“have due to”,“to start”)。相反,通过逐步构建主题特定的KG,我们的模型优于GPT-4,并且能够始终识别准确的实体和关系。实验结果还表明,与各种KG构建基线相比,我们的框架在评估中表现出色。
  • 图表
  • 解决问题
    本论文旨在解决现有知识图谱在信息粒度和时效性方面的挑战,提出了一种主题特定知识图谱(ThemeKG)的构建方法。
  • 关键思路
    论文提出了一种无监督的框架(TKGCon),通过从主题特定语料库中提取实体和关系,构建高质量的主题特定知识图谱。该框架通过从Wikipedia中提取实体本体并使用大型语言模型(LLMs)生成候选关系本体,解析主题语料库中的文档,将提取的实体对映射到本体并检索候选关系,最后整合上下文和本体以巩固实体对的关系。
  • 其它亮点
    实验结果表明,与各种知识图谱构建基线相比,该框架在评估方面表现优异。通过构建主题特定知识图谱,相比直接使用GPT-4,能够更准确地识别实体和关系。此外,该论文还使用了开源数据集,并提供了开源代码,值得进一步研究。
  • 相关研究
    最近在该领域中,还有一些相关研究,例如《Knowledge Graph Embedding: A Survey of Approaches and Applications》、《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论