来自新加坡国立大学、清华大学深圳国际研究生院的研究者,合作开发了一个无监督创新方法 AggMap,将无序数据结构化并以 3D 图像的表征形式提供后续AI学习, 进而生成结构化的特征图谱,大幅提升模型的学习效率,尤其适用于组学数据的分析。

作者表示,该工作提供了一套有用的学习范式,未来可能被用于其他领域的数据的学习中。

该方法以「AggMapNet: enhanced and explainable low-sample omicsdeep learning with feature-aggregated multi-channel networks」为题,于2022 年 1 月 31 日发布在国际著名生物信息学期刊《Nucleic AcidsResearch》。

作者将 AggMap 称为特征点的「拼图求解器」(Jigsaw puzzle solver),旨在通过特征点(feature point, FP)本身的内在相关性和拓扑连接性来将一系列的高维度、无序的特征点拼图般地聚集在一起,形成一个具有特定模式的、有序的、多层的、结构化的特征图谱(feature map),AggMap 的特征点拼图是通过自监督来完成。

总得来说,自监督 AggMap 使用了 UMAP 思想,通过学习其数据的内在结构来结构化无序的特征点。其代理任务是最小化在输入数据空间构建的和嵌入二维空间中构建的两个加权拓扑图之间的差异。因此,AggMap 是通过流形学习和层次聚类来暴露特征点的拓扑结构和分层结构,以此来生成结构化的特征图谱。

自监督 AggMap 拟合过程的流程图。

这篇论文的主要思想是基于无监督方法进行数据结构化,之后使用卷积神经网络学习数据。通过非监督的 AggMap 和监督训练的 AggMapNet,提供了一套高维无序数据学习的流程。

在无监督数据结构化中,聚焦在「局部空间相关」和「多通道」上的优化,显著提升模型的性能,说明合适的数据表征对模型的学习起到极大的作用。

结构化数据的 AggMap 可以用作迁移学习,也即在大量无标签样本上进行特征点的相关性预计算,然后在小样本有标签的数据上做转换,从而生成结构化的特征图谱,提升模型的学习效率。

该方法非常有利于高维小样本的表格数据的学习(Tabular data, 每一行是一个样本,每一列是一个特征)。AggMap/AggMapNet 提供了一套有用的学习范式,未来,它可能会被用在其他领域的数据学习中。

论文链接:

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkac010/6517966

代码链接:

https://github.com/shenwanxiang/bidd-aggmap