Construct, Align, and Reason: Large Ontology Models for Enterprise Knowledge Management

向作者提问

NEW

简介

面向企业级规模的知识管理，面临着整合多源异构数据并实现高效语义推理的重大挑战。传统知识图谱往往难以发现隐含关系，且在复杂问答任务中缺乏足够的语义理解能力。为克服上述局限，我们提出一种统一的“构建—对齐—推理”框架——大型本体模型（Large Ontology Model, LOM）。我们首先从结构化数据库与非结构化文本出发，分别构建双层企业本体，并进一步将二者融合为一个全面、统一的企业本体。为支持指令对齐的推理能力，我们设计了一套统一的三阶段训练流程：第一阶段为本体指令微调，以提升模型对本体结构的理解；第二阶段为文本—本体对齐（text-ontology grounding），以增强本体节点的语义表征能力；第三阶段则采用课程学习（curriculum learning）策略，在本体—语言配对数据上开展多任务指令微调，从而全面提升语义推理与生成能力。此外，我们还构建了覆盖多种本体推理任务的综合性训练与评测数据集。在该基准测试中，参数量为40亿的LOM模型准确率达89.47%，在复杂图推理任务上显著优于DeepSeek-V3.2，充分验证了本体结构与语言能力的有效融合。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

企业级知识管理面临多源异构数据融合困难、隐式关系发现能力弱、语义理解不足导致复杂问答效果差等问题；传统知识图谱缺乏对深层语义结构与自然语言指令的联合建模能力，难以支撑高精度、可解释的推理。该问题在大规模企业场景下具有显著新颖性与实用性挑战。
关键思路

提出统一的'construct–align–reason'框架——大型本体模型（LOM），核心创新在于：1）构建双层企业本体（融合结构化数据库与非结构化文本）；2）设计三阶段指令对齐训练范式（本体指令微调→文本-本体对齐→课程学习驱动的多任务本体-语言联合调优），首次将本体结构理解、语义编码与生成式推理在统一模型中协同优化。
其它亮点

实验基于自建覆盖本体补全、路径推理、反事实问答等任务的综合评测基准；4B参数LOM达89.47%准确率，超越DeepSeek-V3.2在复杂图推理任务；论文未明确提及代码开源，但强调构建了全链条训练/评估数据集；值得深入的方向包括：轻量化部署、动态本体演化建模、人机协同本体构建机制。
相关研究

1) 'OntoLLM: Integrating Large Language Models with Ontologies for Explainable Reasoning' (ACL 2023); 2) 'Knowledge Graph Prompting for Large Language Models' (NeurIPS 2023); 3) 'OntoPrompt: Few-Shot Ontology Learning via Prompting' (EMNLP 2023); 4) 'StructGPT: Structured Language Modeling for Knowledge Graph Completion' (ICLR 2024); 5) 'RAG-ONTO: Retrieval-Augmented Generation with Dynamic Ontology Grounding' (WWW 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问