DRUGAI

目前,仅有少数罕见遗传病患者可通过外显子组测序获得确诊,这表明尚有许多致病变异可能隐藏在非编码区域。研究人员提出PromoterAI——一种深度神经网络模型,能够精准识别引起基因表达异常的启动子变异。研究显示,这类启动子变异可在数千名个体的RNA和蛋白水平引发表达异常,并在群体中受到强烈的负向选择。罕见病患者中,与临床相关基因对应的启动子变异显著富集,其功能影响亦通过报告基因实验得到验证。据估计,启动子变异占罕见病相关遗传负担的6%。

基因表达的精确调控对人类健康和发育至关重要,而基因组序列如何编码这些复杂的表达程序仍未完全明确。启动子作为转录起始的关键区域,整合多个非编码序列元件的信息,从而在正确的时间和空间背景中激活或抑制基因。实验证据显示,启动子可以显著增强或抑制基因表达,暗示其变异可能在罕见遗传病和癌症中起重要作用。然而,由于难以区分功能性与中性的非编码变异,临床上对启动子变异的关注有限。迄今为止,仅有少量启动子中的致病非编码变异被明确识别,这限制了个性化基因组测序在临床的全面应用。


深度学习在处理大规模非结构化数据方面展现出强大能力,能够从基因组测序和功能组学数据中提取关键信息,用以预测人类基因变异的临床影响。尽管已有多种模型尝试从序列中直接推断调控机制,但准确预测非编码变异的表达效应仍是一大挑战。


结果

PromoterAI模型预测启动子变异对基因表达的影响

研究人员开发了PromoterAI,一种卷积神经网络模型,利用启动子变异周围约20 kb的序列信息,预测其对表达的影响。模型先通过训练学习组蛋白修饰、DNA可及性、转录因子结合位点以及CAGE转录起始位点数据,并进一步通过罕见变异导致表达异常的案例进行微调,从而在多个验证任务中表现出优越性能。


异常表达变异主要通过扰动转录因子结合位点实现

模型识别出的低表达变异常扰乱ETS、YY1等启动子调控因子结合位点,而高表达变异则倾向于影响E2F等因子。插入这些motif的模拟实验验证了模型预测与实际表达改变一致。模型微调后的表现提升显著,特别是在正确预测调控方向性方面,且变异落在保守区域的倾向更强。


表达相关启动子变异在群体中受到负向选择

在人群测序数据中,PromoterAI预测具有表达影响的启动子变异在常见等位频率中显著缺失,提示这些变异可能具有不利效应并被自然选择所清除。这种选择压力在对表达敏感的基因中更为显著,特别是在TSS附近100 bp内。


PromoterAI预测eQTL、蛋白水平及临床表型

在GTEx中,PromoterAI得分与已精细定位的启动子eQTL效应显著相关,在多个数据集和基准测试中均优于现有模型。在英国生物库的50万人中,PromoterAI得分与蛋白质水平、多个临床表型(如HDL水平、肝酶)呈现一致性,表明其具备广泛的临床应用潜力。


在罕见病患者中发现PromoterAI预测的致病启动子变异

在英国Genomics England项目中,研究人员发现启动子变异在与患者表型相关的基因中显著富集。PromoterAI的预测结果与血液RNA-seq表达数据、MPRA实验均一致。统计分析表明,启动子变异可解释6%的罕见病诊断率,且与剪接相关的非编码变异共同构成了非编码病因的20%左右。


讨论

非编码变异是导致常见疾病的主要遗传因素之一,而其在罕见病中的作用正逐渐被揭示。研究人员提出的PromoterAI通过大规模表达异常数据的微调训练,显著提升了模型对非编码调控变异的识别能力。该模型在不同数据集、任务和生物背景中展现出一致性和高效性。


尽管当前模型尚受限于可用于训练的表达数据量,其预测能力已显示出巨大潜力。未来随着数据量增加,有望进一步识别组织特异性或远离TSS的功能性启动子变异。此外,结合保守性信息、MPRA实验及RNA-seq数据,PromoterAI可进一步拓展至增强子、非编码RNA和UTR区域,助力未确诊罕见病患者的基因诊断与表型解释。


整理 | WJM

参考资料

Kishore Jaganathan et al. ,Predicting expression-altering promoter mutations with deep learning.Science0,eads7373DOI:10.1126/science.ads7373

内容中包含的图片若涉及版权问题,请及时与我们联系删除