最近看到一篇研究词向量 word2vec 的论文,中了今年的EMNLP。依稀记得头一次听说word2vec还在三年前。这么古老的东西还有人在研究吗?现在不都是XX-BERT、XX-transformer的时代了吗?
论文标题:
Analyzing the Surprising Variability in Word Embedding Stability Across Languages
论文链接:
https://arxiv.org/abs/2004.14876
文章研究的是在多个不同的语言中的词向量稳定性的变化,首先提出了稳定性的计算方式。与常见的在某个任务上提模型、刷sota不同,这篇论文着眼于词向量在不同语言之间的差异的研究,本质上更像是数据分析。文章从数据采样方式入手,分别研究了数据集、训练算法对不同语言的稳定性的分布和走势的影响,并使用岭回归模型拟合了语言的属性特征对稳定性的贡献程度,分析不同属性特征对稳定性的影响。相比提出一个新的模型刷sota而言,可复现性和解释性更高,对词向量的应用有不小的贡献。
当然,这篇文章研究的是经典的静态词向量,和主流的transformer架构相比,确实显得有点“out”,但文章投了七次才中,不也证明了只要是金子都会发光吗?小编认为,谁说nlp一定要追快打新,只要是真正有益于nlp领域发展的研究工作,都值得发表,都值得中。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢