- 简介设计能够实现精确细胞类型特异性基因表达的调控DNA序列,对于合成生物学、基因治疗和精准医学的发展至关重要。尽管基于变压器的语言模型(LMs)能够有效捕捉调控DNA中的模式,但其生成方法通常难以产生具有可靠细胞特异性活性的新序列。在此,我们引入了Ctrl-DNA,这是一种新颖的约束强化学习(RL)框架,专为设计具有可控细胞类型特异性的调控DNA序列而设计。通过将调控序列设计表述为一个生物信息驱动的约束优化问题,我们将强化学习应用于自回归基因组语言模型,使模型能够迭代优化序列,以最大化目标细胞类型中的调控活性,同时限制非目标效应。我们在人类启动子和增强子上的评估表明,Ctrl-DNA始终优于现有的生成方法和基于强化学习的方法,能够生成高适应度的调控序列,并达到最先进的细胞类型特异性。此外,Ctrl-DNA生成的序列捕获了关键的细胞类型特异性转录因子结合位点(TFBS),这些是被调控蛋白识别的短DNA基序,用于控制基因表达,这证明了生成序列的生物学合理性。
-
- 图表
- 解决问题本论文试图解决设计具有精确细胞类型特异性基因表达的调控DNA序列的问题。这是一个关键挑战,对于合成生物学、基因治疗和精准医学的发展至关重要。尽管现有的基于Transformer的语言模型能够捕捉调控DNA中的模式,但生成新型序列时往往难以保证可靠的细胞特异性活性。
- 关键思路论文提出了一种名为Ctrl-DNA的新型约束强化学习(RL)框架,用于设计具有可控细胞类型特异性的调控DNA序列。通过将调控序列设计问题转化为生物信息驱动的约束优化问题,并结合自回归基因组语言模型,该方法能够在最大化目标细胞类型调控活性的同时限制脱靶效应。这种思路相较于现有方法更加注重生成序列的功能性和特异性。
- 其它亮点1. Ctrl-DNA在人类启动子和增强子的设计任务中表现出色,显著优于现有的生成模型和RL方法;2. 生成的序列能够捕获关键的细胞类型特异性转录因子结合位点(TFBS),验证了其生物学合理性;3. 实验设计包括对多种细胞类型的评估,数据集涵盖了已知的人类调控区域;4. 论文未明确提及代码开源情况,但其方法论值得进一步研究,例如扩展到其他物种或更复杂的调控网络。
- 近年来,该领域内的相关研究还包括:1.「DeepEnhancer」利用深度学习预测增强子活性;2.「SEAM」采用序列演化算法生成调控元件;3.「PAGEN」结合生成对抗网络设计具有特定功能的调控序列;4. 「Scaden」通过单细胞数据分析优化细胞特异性调控序列设计。这些研究共同推动了调控DNA设计领域的技术进步。
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流