DRUGAI
今天为大家介绍的是来自密歇根州立大学Jianrong Wang团队的一篇论文。染色体的动态三维空间构象在单细胞中展现出复杂的结构变异,这在调控单细胞特异性转录和表观遗传景观方面发挥着关键作用。单细胞染色质接触图谱中高比例的缺失接触对重建高分辨率空间染色质构象带来了重大挑战。作者开发了一种基于低秩张量补全策略的数据驱动算法,称为Tensor-FLAMINGO。在多种单细胞染色质数据集上实施后,Tensor-FLAMINGO生成了跨越各个单细胞的10kb和30kb分辨率的空间染色体结构。Tensor-FLAMINGO在重建3D染色质结构、恢复缺失接触以及描绘细胞簇方面取得了卓越的准确性。这种前所未有的高分辨率单细胞基因组折叠特征分析,使得扩展识别单细胞特异性长距离染色质相互作用、多路空间枢纽,以及疾病相关GWAS变异的机制成为可能。超越稀疏的2D接触图谱,完整的3D染色质构象为理解不同细胞间空间协调的分子过程动态提供了一条途径。

因为染色体在三维(3D)空间中的空间构象是各种分子过程的结构基础,所以它在调控基因表达、表观遗传可塑性、基因组稳定性和细胞分化中扮演着重要角色。通过使用基于全基因组3C技术,如Hi-C、Capture-C和ChIA-PET,对不同细胞类型和物种的3D染色体结构进行的全面分析,已经揭示了基因组折叠的模式,包括染色质区室、拓扑相关结构域(TADs)和染色质环。这些多尺度构象单元及其相关标志,如CTCF和黏连蛋白复合物,已经导致了有关3D基因组组织底层原理的特定生物学模型,包括环外切和相分离模型。
对染色质接触图谱2D矩阵的定量分析改进了对染色质构型和环的基本模式的理解(例如SnapHiC、Fit-Hi-C和DeepLoop)。此外,基于从染色质接触频率转换而来的成对空间距离,计算机重建3D空间中的染色体结构(如开创性的里程碑算法MCMC5C和BACH),进一步促进了对空间协调调控相互作用的理解,包括长距离相互作用(>100 kb),将特定基因、增强子、转录因子、开放染色质位点和远端遗传变异连接到3D空间邻域。
在本研究中,为了加速对动态单细胞3D基因组的生物学见解,作者开发了一种基于低秩张量补全的模型,Tensor-FLAMINGO,用于基于单细胞染色质接触图谱重建高分辨率3D染色体结构。
Tensor-FLAMINGO模型

图 1
对于给定的单细胞3C实验数据集,从数十到数百个细胞观察到的染色质接触被汇总为一个稀疏的3模张量作为输入,其中张量的每个正面切片代表一个单细胞的染色质接触图谱,而由于每个细胞的测序深度有限,张量中大多数条目都是未观察到的缺失数据(图1a左)。每个细胞的基因组都有其自己的3D空间构象,以单细胞特异性结构变异性为特征。
每个单细胞中的每条染色体被建模为"珠子"链,基于"串珠"聚合物模型,其中每个"珠子"代表指定分辨率下的基因组位点。单细胞的观察到的染色质接触图谱是从不同基因组位点的底层3D坐标生物学诱导的。
为了重建每条染色体的单细胞3D空间结构,Tensor-FLAMINGO采用基于低管秩张量补全框架的两步策略(见方法)。在第一步中,目标函数旨在恢复具有最小管秩的密集张量,同时最佳地保持与输入中观察到的单细胞染色质接触集的一致性(图1a右)。作者实现了基于交替方向乘子法(ADMM)的张量管秩最小化算法。
在每次迭代中,使用张量-SVD(t-SVD)方法更新低秩潜在结构,该方法首先将输入张量转换到傅里叶域,然后进行SVD分析。这种策略通过探索细胞组之间的低复杂度关系,实现了单细胞的同时联合建模,而不是像以前的方法那样进行分离分析。通过优化,每次迭代中的t-SVD方法使模型能够使用跨不同细胞和一个细胞内跨不同染色质接触的信息(图1a右)。
第一步生成的输出是一个密集的低管秩张量,明确填补了每个细胞中大量缺失数据的高分辨率染色质接触信号。作为亮点,Tensor-FLAMINGO采用的t-SVD方法生成密集低管秩张量是克服高度稀疏单细胞染色质接触数据基本挑战的关键算法创新。
Tensor-FLAMINGO的第二步将恢复的密集张量作为输入,并采用作者最近开发的FLAMINGO算法,基于扩展的低秩矩阵补全技术进一步重建单细胞3D空间结构(图1a右)。在其性能已得到之前证实的情况下,FLAMINGO被应用于第一步恢复的密集张量的每个正面切片,以预测每个单细胞的高分辨率3D染色体结构的最终输出,以及从预测的3D结构导出的完整单细胞染色质接触图谱。
值得注意的是,由于单细胞水平的高稀疏性,FLAMINGO本身不能直接应用于原始单细胞染色质接触数据集。第一步t-SVD张量补全生成的密集低管秩张量与FLAMINGO相融合,导致Tensor-FLAMINGO的综合性能优势。
Tensor-FLAMINGO的关键设计是定量利用稀疏单细胞染色质接触张量的低复杂度结构。观察到的信号之间两种普遍的相互依赖性来源(这两种来源都是对所有不同类型的单细胞3C技术都有效的基本事实)保证了底层的低秩特征。
首先,在混合的单细胞池中,细胞可以被分组为对应不同细胞类型或亚型的多个簇,因此,每个簇中的细胞在生物学上相互关联并共享相似的簇特异性一致结构。对于跨不同细胞之间两个基因组位点的特定成对染色质接触,即输入张量的特定"管",其在一个细胞中的缺失值可以从属于同一簇的其他细胞推断出来(图1a右)。由于这种跨单细胞的管式依赖性,Tensor-FLAMINGO的第一步将细胞共同建模。从算法上讲,在每次迭代中,t-SVD方法对观察到的张量进行管式傅里叶变换,后续步骤在傅里叶变换域中进行,允许不同细胞之间的信息共享。
其次,因为基因组位点之间的大量成对距离是由每个位点的底层3D空间坐标诱导的,每个单细胞染色质接触图谱的矩阵秩最多为五,正如作者之前在FLAMINGO设计中证实的那样。因此,单细胞染色质接触图谱的内在自由度与矩阵大小相比非常小,表明成对染色质接触信息可以显著压缩,并且可以基于仅一小组观察到的条目进行有效重建(图1a右)。
从算法上讲,在第一步中,傅里叶域中每个变换正面切片的软阈值SVD分析明确探索潜在低秩依赖性,以恢复具有最小管秩的密集张量。此外,在第二步中,Tensor-FLAMINGO实施FLAMINGO进一步利用每个细胞内染色质接触之间的依赖性,基于低秩矩阵补全策略,导致最终预测每个细胞中染色体的高分辨率3D空间坐标。FLAMINGO对高缺失率数据的卓越和稳健性能对高分辨率重建特别有用,因为分配给每个高分辨率基因组位点的读取深度更低且更稀疏。
总体而言,通过描绘与3模张量的低管秩和染色质接触图谱的低秩相对应的两个低复杂度潜在结构来源,Tensor-FLAMINGO彻底解决了单细胞3C基实验稀疏性的核心挑战,并显著促进了单细胞3D基因组建模,而无需增加测序深度的实验负担。
在四个单细胞3C数据集上的预测
基于不同技术获取的四个单细胞3C数据集,包括scHi-C、snHi-C、Dip-C和snm3C,Tensor-FLAMINGO系统地进行了实施,以10kb和30kb分辨率预测单细胞3D染色体结构。这些预测代表了迄今为止最大规模的单细胞3D基因组空间构象集合,也是最高分辨率的(图1b)。
以GM12878的单细胞Dip-C实验为例,经过质量控制后,该实验为14个单细胞描绘了染色质接触图谱。作为一个代表性例子,基于这个Dip-C数据集,Tensor-FLAMINGO成功重建了所有14个细胞的21号染色体的10kb分辨率3D结构(图1b),与其他方法相比,准确性提高了两倍多(与基准的平均Spearman相关性>0.42)。
重建的10kb分辨率单细胞特异性结构的整体折叠与从GM12878的整体Hi-C数据推断的一致结构高度一致。除了染色体折叠的整体一致性外,所有14个预测结构都显示单细胞特异性结构变异性(图1b),这些变异性进一步根据不同TAD形成、涉及基因调控的特定长距离染色质相互作用以及跨不同细胞的多路相互作用枢纽进行量化。
值得注意的是,这些对单细胞结构变异性的详细评估只有通过高分辨率重建才成为可能,而低分辨率预测不足以描述3D基因组中的特定变异。值得注意的是,Tensor-FLAMINGO能够基于高度稀疏的Dip-C数据构建高分辨率空间结构,该数据在10kb分辨率下的缺失率>99.95%(图1b)。
基于模拟的基准性能

图 2
Tensor-FLAMINGO的性能首先通过一系列模拟的单细胞结构池进行基准测试,其中金标准结构是已知的(图2a)。在每个模拟池中,多种细胞类型混合在一起,每种细胞类型都有其细胞类型特异性的一致染色体结构,以考虑单细胞样本的潜在异质性。
基于每种细胞类型的一致结构,通过随机下采样染色质接触并添加白噪声来生成多个单细胞特异性染色体结构及其相应的染色质接触图谱,以表示实验缺失数据率和单细胞特异性结构变异性(图2a)。系统地改变模拟参数的组合以生成不同的模拟结构和染色质接触图谱池,用于在多种条件下彻底测试Tensor-FLAMINGO的性能。预测准确性通过两个指标量化,即Spearman相关性和RMSD值,相对于基准单细胞结构,这两个指标都被先前研究建议作为定量性能指标。
值得注意的是,Tensor-FLAMINGO在混合细胞类型之间的广泛结构异质性范围内,稳健地实现了高准确度的单细胞3D结构重建,无论是Spearman相关性(>0.6)还是RMSD(<0.16)这两个性能指标相对于真实基准结构都表现良好(图2b)。混合细胞类型之间的较低结构相似性对应于单细胞池内的较高异质性,并对恢复属于不同细胞类型的单个细胞的结构造成更严格的挑战。此外,准确性对添加到每个单细胞的不同噪声水平具有稳健性(图2b),这代表每种细胞类型内不同程度的细胞间变异性。
作为Tensor-FLAMINGO性能的一个例子,图2c显示了当它应用于一个模拟的异质单细胞染色质接触图谱池时的代表性预测,其中混合了三种潜在细胞类型。三种混合细胞类型的一致结构包含不同的细胞类型特异性3D结构特征(图2c),每种细胞类型基于一致结构模拟了十个可变单细胞结构。
尽管面临两个层次的结构变异性挑战(即细胞类型层次和单细胞层次),Tensor-FLAMINGO成功地以高准确度(RMSD<0.08)重建了单细胞3D结构,并恢复了细胞类型特异性染色质折叠特征(图2c)。预测的单细胞结构也形成了三个明确的簇,这些簇被发现与每个细胞对三种潜在混合细胞类型的归属一致。这些显著结果强有力地支持了Tensor-FLAMINGO从异质数据集中描绘单个细胞的独特3D结构的能力。
此外,在具有广泛下采样率(≥0.5%)的不同模拟结构池上测试,Tensor-FLAMINGO始终展示出高重建准确性,Spearman相关性>0.97,RMSD<0.0018。即使下采样率为0.1%(即99.9%的缺失数据),Tensor-FLAMINGO仍然能够实现高重建准确性,Spearman相关性>0.6,RMSD<0.23。这些结果系统地表明其对高缺失率数据的卓越性能,这是稀疏单细胞染色质接触数据集的基本挑战。
此外,Tensor-FLAMINGO性能的稳健性在不同染色体大小、每种混合细胞类型的不同单细胞数量、样本中混合的不同细胞类型数量以及染色质接触张量中正面切片的不同组织顺序等多种模拟数据集中得到了广泛验证。
此外,作者还测试了添加高水平噪声的单细胞接触图谱张量模拟池的低秩特性。噪声输入张量的奇异值可以稳健估计,其中只有少数排名靠前的奇异值不为零,表明Tensor-FLAMINGO可以有效捕获低秩特性。
重建单细胞3D结构的卓越性能
为了直接比较在真实实验数据上的性能,作者收集了来自STORM数据集的人类染色体21号上2Mb区域(chr21:29,372,390-31,322,257)的基于图像的K562单细胞结构作为基准测试结构。这些基于图像的实验数据提供了大量细胞的30kb分辨率结构。Tensor-FLAMINGO应用于K562细胞的snHi-C数据集,该数据集包含16个细胞的单细胞染色质接触图谱,用于重建21号染色体的30kb分辨率3D空间构型。作为比较,先进算法包括Si-C、isdHiC和RPR也基于它们建议的设置应用于相同的snHi-C数据集。

图 3
由于STORM数据集是从与snHi-C数据集不同的K562细胞池中测定的,因此首先根据高度相关(Spearman相关性>0.8)的STORM单细胞结构数量评估每种算法预测的3D结构,这表明来自同一细胞类型的解耦细胞池的支持程度。图3a显示了Tensor-FLAMINGO的单细胞预测和来自STORM数据集的支持结构的例子,其中Tensor-FLAMINGO表征了这个特定2Mb区域复杂的染色质折叠,与基于图像的STORM数据集的观察结果一致。
令人惊讶的是,对于snHi-C数据集中的16个细胞中的每一个,Tensor-FLAMINGO的预测平均得到了来自STORM数据集的73个基于图像的单细胞结构的支持,而最先进的方法得到的支持结构要少得多(图3b)。
此外,基于图像的STORM数据集经过进一步筛选,以识别与16个实验性snHi-C输入染色质接触图谱高度对齐的顶级匹配单细胞结构子集,作为特定细胞的基准结构。基于每个细胞的这些无偏基准结构,Tensor-FLAMINGO在所有测试方法中展示了最高的准确性(图3c)。
Tensor-FLAMINGO预测的单细胞染色质结构与每个细胞的基准STORM结构强烈相关(中位Spearman相关性=0.56),而其他先进算法与基准的相关性要低得多(0.25<中位Spearman相关性<0.5)。作为一个代表性例子,图3d显示了来自snHi-C数据集的特定细胞的对齐基于图像的3D结构及其相关的成对距离矩阵。Tensor-FLAMINGO预测的3D构象准确地重现了这一结构,Spearman相关性=0.85(图3d),而其他算法导致与基准的较大偏差,只达到了低得多的准确性(Spearman相关性<0.4)。总体而言,这些由基于图像的单细胞结构基准测试的性能比较直接支持了Tensor-FLAMINGO在高分辨率下3D重建准确性的显著提高。
编译|黄海涛
审稿|王梓旭
参考资料
Wang, H., Yang, J., Yu, X., Zhang, Y., Qian, J., & Wang, J. (2025). Tensor-FLAMINGO unravels the complexity of single-cell spatial architectures of genomes at high-resolution. Nature Communications, 16(1), 3435.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢