- 简介面向企业级规模的知识管理,面临着整合多源异构数据并实现高效语义推理的重大挑战。传统知识图谱往往难以发现隐含关系,且在复杂问答任务中缺乏足够的语义理解能力。为克服上述局限,我们提出一种统一的“构建—对齐—推理”框架——大型本体模型(Large Ontology Model, LOM)。我们首先从结构化数据库与非结构化文本出发,分别构建双层企业本体,并进一步将二者融合为一个全面、统一的企业本体。为支持指令对齐的推理能力,我们设计了一套统一的三阶段训练流程:第一阶段为本体指令微调,以提升模型对本体结构的理解;第二阶段为文本—本体对齐(text-ontology grounding),以增强本体节点的语义表征能力;第三阶段则采用课程学习(curriculum learning)策略,在本体—语言配对数据上开展多任务指令微调,从而全面提升语义推理与生成能力。此外,我们还构建了覆盖多种本体推理任务的综合性训练与评测数据集。在该基准测试中,参数量为40亿的LOM模型准确率达89.47%,在复杂图推理任务上显著优于DeepSeek-V3.2,充分验证了本体结构与语言能力的有效融合。
-
- 图表
- 解决问题企业级知识管理面临多源异构数据融合困难、隐式关系发现能力弱、语义理解不足导致复杂问答效果差等问题;传统知识图谱缺乏对深层语义结构与自然语言指令的联合建模能力,难以支撑高精度、可解释的推理。该问题在大规模企业场景下具有显著新颖性与实用性挑战。
- 关键思路提出统一的'construct–align–reason'框架——大型本体模型(LOM),核心创新在于:1)构建双层企业本体(融合结构化数据库与非结构化文本);2)设计三阶段指令对齐训练范式(本体指令微调→文本-本体对齐→课程学习驱动的多任务本体-语言联合调优),首次将本体结构理解、语义编码与生成式推理在统一模型中协同优化。
- 其它亮点实验基于自建覆盖本体补全、路径推理、反事实问答等任务的综合评测基准;4B参数LOM达89.47%准确率,超越DeepSeek-V3.2在复杂图推理任务;论文未明确提及代码开源,但强调构建了全链条训练/评估数据集;值得深入的方向包括:轻量化部署、动态本体演化建模、人机协同本体构建机制。
- 1) 'OntoLLM: Integrating Large Language Models with Ontologies for Explainable Reasoning' (ACL 2023); 2) 'Knowledge Graph Prompting for Large Language Models' (NeurIPS 2023); 3) 'OntoPrompt: Few-Shot Ontology Learning via Prompting' (EMNLP 2023); 4) 'StructGPT: Structured Language Modeling for Knowledge Graph Completion' (ICLR 2024); 5) 'RAG-ONTO: Retrieval-Augmented Generation with Dynamic Ontology Grounding' (WWW 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流