文本匹配是NLU中的一个核心问题,它广泛应用于大量的NLP任务中,如信息检索、问答系统、文本聚类、等等。本文简单总结了几篇经典的基于表示的深度文本匹配论文分享给大家。

概述 文本匹配是自然语言理解中的一个核心问题,它应用于大量的自然语言处理任务中,例如信息检索、问答系统、文本聚类、等等。其中,信息检索可归结为query和文档资源的匹配,问答系统可以归为问题和候选问题的匹配,文本聚类可归结为各文本间的匹配问题。

传统的文本匹配技术主要有Jaccard、Levenshtein、Simhash、TF-idf、Bm25、VSM等算法,其主要是基于统计学方法通过词汇重合度来计算两段文本的字面相似度。然而,仅通过字面相似度是衡量文本的匹配度是远远不够的,因为同一语义的文本在形式上千变万化,两段文本可以表现为字面相似但词序不同而导致语义完全相反;可以表现为字面相似但个别字词不同而导致意思大相径庭;更可以表现为字面完全不相似而语义相同;等等问题。所以,传统的匹配算法存在着词义局限、结构局限等问题。近年来随着深度学习的迅猛发展,各类基于深度学习的文本匹配方法也如雨后春笋一般应运而生。

一般来说,深度文本匹配方法主要分为表示型和交互型。表示型模型主要是将两两段文本转换成一个语义向量,然后计算两向量的相似度,其更侧重对语义向量表示层的构建,它的优势是结构简单、解释性强,且易于实现,是深度学习出现之后应用最广泛的深度文本匹配方法。典型的网络结构有 DSSM、LSTM 和 ESIM,接下来将逐篇进行解读。

内容中包含的图片若涉及版权问题,请及时与我们联系删除