现有的中文缩略词预测方法可以被认为是基于特征的方法。它们通常是将缩略词预测作为序列标记问题,即对每个token作二分类,去判断是否该字符是否应保留在缩略词中。尽管取得了成就,但以前的方法仍然有以下缺点:一方面,他们只使用转移矩阵来寻找最高概率的标签,未能充分利用标签依赖关系;另一方面,他们忽略了实体相关文本的丰富信息,只利用实体本身的语义。事实上,我们可以获取足够的与给定实体相关的文本例如百度百科文本、景点POI实体评论和query文本,能提供模型预测缩写的信号。
为了解决这些问题,我们将中文缩略词预测看作从全称实体序列到缩略词序列的定长机器翻译任务。贡献包括,首先,我们提出了一种用于中文缩略词预测的序列生成模型。其次,我们将实体相关上下文纳入中文缩略词预测任务,为模型提供了更多语义信息。最后,我们构建了旅游中文缩略词数据集。此外,我们在飞猪搜索系统上部署的缩略词实现了2.03%的转化率提升。
Paper地址:https://dl.acm.org/doi/pdf/10.1145/3511808.3557074
Code地址:https://github.com/tolerancecky/abbr-0731
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢