句法语义分析数据资源和标注平台

北京语言大学语言智能研究院根据现代汉语语言学研究的前言成果,提出使用“意合图”对汉语句法语义信息进行表征,并建设了意合图有关资源。 意合图是一种语义表征图,为有向图,图中节点由事件复合体与实体复合体构成,边为有向边,可表示事件与实体、事件与事件、实体与实体之间的语义关系。事件复合体:主要是以句子(事件)的核心谓词为核心同时承载谓词主要论元、次要论元、情态和语态信息的复合体。实体复合体:主要是名词(实体)及其相关属性和属性值构成的复合单元。 意合图节点由语块构成。语块间呈依存关系。块依存的理论和资源构建,在本次CCL大会上,有我团队的口头报告《基于组块分析的汉语块依存语法》和海报论文《汉语块依存语法与树库构建》,欢迎关注。 资源构建方面,首先是北语块依存树库的构建,该树库基于篇章进行,涉及新闻、百科、专利、作文、法律等多领域数据,分阶段构建。第一阶段,首先标注出句子中的结构组块,第二阶段,则是进行句子成分的补全标注,第三阶段是进行句间关系的标注。 块依存树1.0:在第一阶段主要是标注出句子的组块成分,呈现出句子整体骨架,组块标注时区分句内短语成分、句间衔接成分和辅助成分。块依存树2.0:在该阶段,则是在1.0块序列的基础上进行句子自足成分的找回标注,主要涉及谓词关联的主语、宾语、状语和补语块找回标注。 目前依存树库的总字数达到了千万字级规模,复句和小句规模在十万句级规模。在搭配知识抽取方面,已经抽取结构搭配3500余万对,获得4000多个动词的论元搭配实例数据和情态搭配数据。该部分资源有效支撑对句子命题义和情态义的解析工作。