DRUGAI
今天为大家介绍的是来自德国慕尼黑工业大学的Julien Gagneur团队发表的一篇论文。在医学研究中,基因表达异常(aberrant gene expression)经常与疾病的发生有关,但科学界一直缺乏能够预测个体异常基因表达的有效算法。为解决这一问题,研究人员收集了一个大型数据库,包含了633名个体在49种不同人体组织中的8.2百万个罕见基因变异。现有的基因致病性评分系统CADD和功能缺失预测工具LOFTEE,虽然不是专门用于预测基因表达异常,但也显示出了一定的预测能力,平均准确率在1-1.6%之间。基于这些发现,研究团队开发了新的AbExp模型。该模型考虑了组织特异性,并综合分析了基因表达的变化规律、基因变异对不同形式蛋白质(异构体)的影响,以及基因剪接异常等因素,使预测准确率提升到12%。更重要的是,当研究团队将临床上容易获取的组织样本的基因表达数据纳入分析后,预测准确率又提高了一倍。在英国生物银行的血液特征研究中,使用AbExp的连续性、组织特异性评分替代传统的LOFTEE方法后,不仅提高了发现相关基因的灵敏度,还改善了对人体特征的预测效果。

基因表达异常,即基因表达水平超出正常生理范围的现象,是许多疾病的常见诱因。在癌症发展过程中,抑制肿瘤生长的基因表达不足,以及促进癌症发展的基因过度表达,都是典型特征。此外,基因表达异常还与许多罕见遗传疾病和常见疾病风险有关。研究人员利用基因测序技术(RNA-seq)分析大量人群数据,发现了基因表达异常的遗传基础。数据显示,罕见的基因变异与表达异常之间存在明显关联。具体来说,某些罕见的基因结构变化,以及可能导致基因产物提前降解(无义介导衰变)的变异,会导致基因表达不足。而另一些结构变异,特别是基因复制,则可能导致基因过度表达。

图 1
如图1所示,研究团队建立了一个创新的预测系统,用于预测不同人体组织中由罕见基因变异引起的表达异常。考虑到基因表达不足通常会导致功能损失,而过度表达的影响则较难判断,研究重点关注了表达不足的情况。为此,作者开发了AbExp模型,该模型通过分析基因变异特征、不同组织中基因表达的多样性等信息,可以预测个体的基因表达不足情况。这一模型的预测准确度显著优于现有的基因功能预测工具。研究还在英国生物银行的40种血液特征数据中验证了AbExp的实用价值。更重要的是,当医生能够获取某些组织的基因表达数据时,AbExp还能帮助预测那些难以采样组织中的基因表达异常情况,这对疾病诊断具有重要意义。
基准数据库
为了研究基因表达异常,研究团队利用基因组表达数据库(GTEx)建立了一个大规模研究平台。这个平台包含了633位个体、49种不同人体组织的基因测序数据,共计11,215个样本。研究主要关注与人类疾病密切相关的蛋白质编码基因,并使用专门的分析工具OUTRIDER来识别基因表达异常的情况。

图 2
如图2所示,研究人员首先评估了现有基因变异分析工具的预测效果。分析发现,某些特定类型的基因变异,如改变基因读码框架的突变(框移突变)、影响基因起始和终止信号的变异,以及影响基因剪接的变异,在表达异常的样本中明显更为常见。特别是使用LOFTEE工具识别的功能缺失变异,在表达异常基因中出现的比例超过23%,而在正常样本中仅不到0.1%。另一个评分工具CADD的分析也显示,表达异常基因的评分显著高于正常样本,差异达到17倍。
然而,这些工具在预测基因表达异常方面的表现仍有限。例如,LOFTEE工具虽然能发现23.2%的表达异常案例,但其预测的准确性仅为7.1%。为了提高预测效果,研究团队开发了一个新的机器学习模型,该模型综合考虑了多个特征,通过预测基因表达偏离正常水平的程度(z-分数),实现了更准确的预测。这个新模型不仅保持了与LOFTEE相同的发现率,而且预测准确度提高到了11%,为识别潜在的疾病相关基因变异提供了更可靠的工具。
考虑不同组织的特异性表达以提升准确率
研究团队发现,考虑不同组织中基因表达的特点可以显著提高预测准确度。同一个基因可以产生多个不同版本的蛋白质(称为异构体),这些异构体在不同组织中的比例往往不同。

图 3
如图3所示,以PSMB10基因为例:在大脑的豆状核区域,其主要形式(标准转录本)仅占该基因总表达量的4%,而另一种形式占91%。相比之下,在皮肤成纤维细胞中,标准转录本占到了48%。这种差异导致同一个基因变异在不同组织中的影响大不相同。例如,当这个基因的第4个外显子发生变异时,对成纤维细胞的影响明显,但对豆状核的影响较小。

图 4
如图4所示,研究还发现基因表达的自然波动范围对判断表达异常至关重要。举例来说,LTBP3基因(与牙齿发育和身高相关)在胫动脉中的表达量如果下降30%就会被认为异常,因为该基因的表达通常很稳定。相比之下,嗅觉受体基因OR2W3在血液中的表达本来就很不稳定,波动范围在10%到230%之间,因此相同程度的表达下降并不会被判定为异常。通过将这些因素(组织特异性的基因表达形式和表达波动范围)整合到预测模型中,预测的准确度显著提升。相比原始模型,新模型的平均预测精确度提高到了5.0%,这一改进对于准确识别可能导致疾病的基因变异具有重要意义。研究结果表明,在预测基因表达异常时,不仅要考虑基因变异本身,还要考虑基因在不同组织中的表达特点和自然波动范围。
最终开发的AbExp模型综合考虑了上述所有因素,能够预测49种不同人体组织中的基因表达异常。为了便于使用,研究团队设置了两个预测阈值:严格标准下(高置信度阈值),模型每预测两个异常就有一个是准确的,但可能会遗漏一些真实的异常情况;宽松标准下(低置信度阈值),模型每预测五个异常中有一个是准确的,但能发现更多潜在的异常情况。研究团队还在两个独立的数据集上验证了模型的可靠性:一个来自295名疑似线粒体疾病患者的数据,另一个来自233个运动神经元样本。验证结果表明,即使在这些完全不同的数据集上,AbExp模型的预测准确度仍然比现有工具高出2-3倍,证实了其实用价值。

图 5
研究团队首先评估了AbExp模型识别致病基因变异的能力。如图5所示,在医学基因变异数据库(ClinVar)的测试中,AbExp表现出色:在保持99%以上准确率的同时,能够发现近一半的已知致病变异。特别是在那些对基因功能要求严格的基因中,AbExp预测的高风险变异出现频率显著较高,这与生物学认知相符。

图 6
研究随后分析了AbExp在实际医学研究中的应用价值。如图6所示,研究团队利用英国生物银行的数据,分析了40种重要的血液指标。结果表明,使用AbExp进行分析比传统方法多发现了30%的基因-疾病关联。更重要的是,AbExp显著提高了对个体健康风险的预测准确度,尤其是对那些血液指标异常的个体。这一发现对于疾病的早期预警和个性化医疗具有重要意义。

图 7
如图7所示,研究还探索了如何进一步提高预测准确度。许多疾病可能源于难以采样的组织(如大脑或心脏),但研究发现可以通过分析容易获取的组织样本(如皮肤细胞)来预测其他组织的基因表达异常。特别是,当将皮肤成纤维细胞的基因测序数据整合到AbExp模型中时,预测其他组织基因表达异常的准确度提高到23.8%,这一突破为疾病诊断提供了新的思路。
讨论
这项研究建立了一个跨越49种人体组织的基因表达异常预测基准数据集,并开发了AbExp机器学习模型。该模型通过整合变异注释、组织特异性基因表达变异性和转录本构成,在预测准确度上显著优于现有工具。研究发现,基因表达的可变性在预测中起着双重作用:一方面,表达稳定的基因更容易因变异而出现异常;另一方面,这些基因往往具有调控机制来缓冲遗传变异的影响。虽然模型仍存在一些局限性,如无法预测远距离调控元件的影响,也未考虑多个变异的组合效应,但研究结果对临床诊断和个性化医疗具有重要意义。特别是在罕见变异关联分析和表型预测方面,AbExp展现出优异的性能,为未来的研究和临床应用奠定了基础。
编译|于洲
审稿|王梓旭
参考资料
Hölzlwimmer F R, Lindner J, Tsitsiridis G, et al. Aberrant gene expression prediction across human tissues[J]. Nature Communications, 2025, 16(1): 3061.
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢