近日,AMiner 团队的硕士生殷达等人提出一种新方法——论文溯源树,通过刻画学术文献的发展演变脉络,来帮助科研人员了解前沿论文是如何演变而来的。相关研究论文“MRT: Tracingthe Evolution of Scientific Publications”已被 TKDE 2021 接收。
论文链接:
https://ieeexplore.ieee.org/document/9453112
“MRT 溯源树”是一个通过构建论文演变图帮助学者研究论文发展的工具,目标是研究论文中各种思路方法的演变过程。
算法采用 TF-IDF、Sentence-BERT 以及 ProNE 等文本编码以及图特征编码方法对检索得到的论文网络进行编码计算,为每一篇论文生成表示向量。其中,TF-IDF 可以提取论文中表层的关键词信息;Sentence-BERT 则能够捕获到论文中较深层的语义信息;ProNE 则将文本信息放在论文引用网络中,用谱传播的方式将邻居节点论文之间的关联性融入论文表示向量中,从而最终得到兼顾文本信息和引用结构信息的论文向量。
在此基础上,算法采用了 Kernel K-means 等方法,根据生成的论文向量进行聚类排列,连接成带有多条“溯源路径”的树状结构。
图|论文溯源树
Demo 地址:
https://mrt.aminer.cn/5dd3de98e07b013b38cf3399
目前,该算法已集成在 AMiner 学术信息挖掘系统中(https://mrt.aminer.cn/)。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢