关键词:机器学习,神经嵌入模型,移动引力模型,科学学 ,科学迁移

论文题目:Unsupervised embedding of trajectories captures the latent structure of scientific migration 论文期刊:PNAS 论文地址:https://www.pnas.org/doi/10.1073/pnas.2305414120

图1:神经嵌入提供了功能距离,在三个不同的人类轨迹数据集上提高了移动引力模型(gravity model of mobility)的最佳预测能力。(A) 为每个组织分配了一个唯一标识符,并将它们组合成一个按发表年份排序的隶属关系轨迹(顶部)。如果一位作者在同一年列出了多个机构的隶属关系,我们会在每次训练迭代中调整该年的顺序(下图)。(B)与地理距离相比,嵌入距离能更好地解释全球科学迁移的预期流量(C)。红线为最佳拟合线。黑点为分段距离的平均通量。(D) 使用嵌入距离对机构间流量的预测优于使用地理距离(E)对机构间流量的预测。

图2:嵌入空间的投影显示了各组织复杂的多尺度结构。(A) 嵌入空间的 UMAP 投影(显示了国家层面的聚类。每个点对应一个组织,其大小表示 2008 年至 2019 年隶属于该组织的移动和非移动作者的年平均人数。颜色表示地区。(B) 放大(重新投影)包含西亚、南亚和东南亚国家的区域,显示出国家集群的地理和文化梯度。(C) 同样,放大到包含西班牙、葡萄牙、南美洲和中美洲组织的区域,显示出按最广泛使用的多数语言群组进行的聚类:西班牙语和葡萄牙语。(D) 对美国的组织进行同样的放大,可以看到以州为单位的地理聚类,大致按人口普查局指定的地区进行分组, (E) 进一步放大马萨诸塞州,可以看到以城市中心(波士顿、伍斯特)、组织部门(医院与大学)以及大学系统和声望为单位的聚类

图3:国际移徙的条件首先是地理因素,然后才是语言因素。(A) 国家向量的分层聚类相似性矩阵,其中的值为至少有 25 个组织的国家内所有组织向量的平均值。矩阵单元的颜色与国家向量之间的余弦相似度相对应。国家名称的颜色与其群组相对应。从左至右,矩阵中分隔的三个单元列的颜色分别对应国家的地区、语系(65)和主要语言。(B) 以元素为中心的聚类相似性揭示了决定层次聚类的因素。地区能更好地解释国家矢量在较高层次聚类中的分组情况。语系,然后是使用最广泛的语言,能更好地解释国家的细粒度分组。

图4:组织嵌入向量的大小反映了组织的声望和规模。(A) 组织嵌入向量的大小与美国大学研究人员数量的比较。颜色表示大学在《泰晤士报》排名中的名次,1 表示排名最高的大学。未着色的点为未列入《泰晤士报》排名的大学。我们发现了一个凹形,即规模较大的大学往往离原点更远;然而,声望较高的大学的 L2 Norm往往较小。(B) 我们在美国、中国、澳大利亚、巴西等许多国家发现了类似的凹曲线模式
计算社会科学读书会第二季

详情请见:
点击“阅读原文”,报名读书会
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢