1.《Syntactic and Semantic-driven Learning for Open Information Extraction》
标题:句法和语义驱动的开放域信息抽取 链接:https://www.aclweb.org/anthology/2020.findings-emnlp.69.pdf 开放域信息抽取(Open IE)旨在从大规模自由文本中提取开放的多元组。相比传统的信息抽取,此任务的特点是与领域无关而且不需要预先设定关系模板。虽然此任务受到越来越多的关注,但是由于难以获取大规模人工标注数据,构建准确且高覆盖的开放域信息抽取系统依然困难重重。 为了缓解对人工标注数据的依赖,本文提出一种句法和语义驱动的学习算法,通过利用句法和语义作为监督信号,实现无监督的开放域信息抽取。图1展示了我们方法的整体流程。首先,我们利用句法模板作为标注函数,自动挖掘三元组并构建标注语料,从而训练基础的开放域信息抽取模型。其次,由于自动构建的标注语料通常带有噪声而且覆盖不足,导致基础模型的覆盖能力有限,因此有必要对基础模型进行优化并提升泛化能力。为此,我们进一步提出基于句法和语义的增强学习。我们利用句法规则的约束以及预训练的语义模型,对自动抽取结果的质量进行衡量,然后通过增强学习不断训练优化基础模型的效果,从而获得的覆盖率和准确率更好的模型。
2. 《Learning Adaptive Segmentation Policy for Simultaneous Translation》
标题:同声翻译的自适应分割策略 链接:https://www.aclweb.org/anthology/2020.emnlp-main.178.pdf 近年来,同声传译越来越受到研究界和业界的关注。它的目标是实时翻译,要求翻译质量高,且语音和翻译输出之间的延迟尽可能短。平衡准确度和延迟是同声翻译的一大挑战。为了获得较高的准确率,模型通常会等待收到较长的流式文本才开始翻译,这就会导致延迟增加。可是反之,要追求较低延时,就可能会损害翻译结果的准确性。因此,系统需要定义一个策略来决定,当收到一定长度的语音识别结果后,是进行翻译,还是继续等待。 已有工作可分为两种方法。一种是固定策略,如每收到个字就进行一次翻译,但这种方法不考虑上下文信息,容易造成翻译效果下降。另一种自适应策略根据上下文确定是否将当前内容送去翻译,但已有自适应方法需要将策略和翻译模型联合训练,训练过程复杂。 本研究在人工翻译的启发下,提出通过考虑翻译模型可能产生的翻译来学习对源文本进行分割,保持分割和翻译之间的一致性。
3.DuSQL: A Large-Scale and Pragmatic Chinese Text-to-SQL Dataset
标题:DuSQL:实用的大规模中文文本转结构化查询语句数据集 链接:https://www.aclweb.org/anthology/2020.emnlp-main.562.pdf Text-to-SQL任务旨在将自然语言问题转成可在数据库上执行的SQL查询语句。该任务是面向数据库问答的核心技术,能够帮助用户从数据库中获取信息。由于缺乏标注数据,现有的文本转结构化查询语句(text-to-SQL)任务研究主要集中在英文上。代表性的英文数据集包括ATIS,WikiSQL,Spider等。 本文提出了一个实用的大规模中文跨领域text-to-SQL数据集DuSQL,其包含200个数据库,813个表格和23797个问句/SQL 对。DuSQL数据集有三个特点。
4. Diversified Multiple Instance Learning for Document-Level Multi-Aspect Sentiment Classification
标题:用于文档级多方面情感分类的多元化多实例学习 链接:https://www.aclweb.org/anthology/2020.emnlp-main.570.pdf 以往基于神经网络的文档级多方面情感分类通常需要大量地人工标注方面级的情感标签,需要消耗较大的人力财力。而文档级的情感标签却可以从网络上大量的获取,比如来自购物网站等,因此使用这种免费的文档级情感标签来训练神经网络是很有价值的。为此,我们提出了一种多元化多实例学习网络(D-MILN),该网络能够仅通过文档级的弱监督实现方面级情感分析器的训练。 具体而言,我们通过多实例学习来连接方面级和文档级的情感,从而提供了一种从文档级监督的反向传播中学习方面级情感分类器的方法。
5.A Predicate-Function-Argument Annotation of Natural Language for Open-Domain Information eXpression
标题:一种面向开放领域信息表示的自然语言上的谓词-函数-参数标注方法 链接:https://www.aclweb.org/anthology/2020.emnlp-main.167.pdf 知识和推理是人工智能发展的下一个阶段。然而,知识的抽取和知识库的建立是一个经典的难题。语言是蕴含知识最丰富的载体,但是语言和知识的鸿沟非常的巨大。目前仅有极小的一部分文本所蕴含的知识被形式化的知识库所蕴含。开放信息抽取(Open Information Extraction, OIE)是建立语言和知识的桥梁的一种途径。但是在实践中,开放信息抽取系统均是各自针对不同应用独立构造的。这导致:1)大量重复工作;2)抽取策略不可重用;3)无法迁移到新的应用场景。在该论文里,我们提出了一种通用可迁移的OIE系统构造方法论(如图9所示)。这种方法基于一个新的任务:开放信息表示(Open Information eXpression, OIX)。开放信息表示试图将自然语言句子的所有信息表示成为事实和事实之间的关系,而不是像OIE那样只关心部分感兴趣的事实。我们设计了一种OIX 的实现方式,一种称为开放信息标注(Open Information Annotation,OIA)的有向无环图(如图10所示)。OIA实现了OIE系统的基础公共操作。面向特定任务的OIE系统,可以在OIA上实现具体的策略。由于这些策略都是在OIA图上进行的,因此可以迁移到新的任务领域,通过组合策略便可得到一个新的OIE系统。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢