DRUGONE
RNA 的功能高度依赖其结构和动态行为。现有 RNA 计算模型通常要么专注于结构建模,要么针对某一类特定折叠问题而设计。研究人员提出了 PlanarFold,这是一种 RNA 粗粒化模型,将二维空间中的分子动力学模拟与动态规划结合起来,用于探索 RNA 的多样化动态行为。与全原子分子动力学模型相比,PlanarFold 的速度提升超过四个数量级。
在二级结构层面,PlanarFold 能够在多种场景中定量再现实验结果,包括天然二级结构、热力学与动力学性质、力学性质、共转录折叠路径以及从头折叠路径。PlanarFold 揭示的构象动力学可帮助理解 RNA 如何执行或丧失功能,并为突变设计、治疗干预和 RNA 器件开发提供潜在靶点与设计线索。

RNA 分子的功能远不止遗传信息传递。它们可以作为催化分子、调控元件、适配体和多种生物机器的重要组成部分。RNA 的功能多样性与其特定二级结构、三级结构以及构象动态密切相关。RNA 的四种碱基序列虽然看似简单,却能编码非常复杂的能量景观。与蛋白质相比,RNA 能量景观往往更加崎岖,存在大量局部能量极小值,这些局部状态主要由二级结构相互作用所稳定,也正是这些状态支撑了 RNA 精细而复杂的结构动态。
深入理解 RNA 构象动态对于解释调控 RNA 的功能机制非常重要。然而,RNA 高度柔性给高分辨率结构解析带来挑战。X 射线晶体学和冷冻电镜往往难以捕捉动态异质集合;核磁共振虽然可以研究动态,但通常只适用于较小 RNA。单分子技术如光镊和原子力显微镜能够在外力作用下观察 RNA 的机械性质和折叠过程,但自由 RNA 分子在无外力条件下如何折叠到天然结构,仍然缺乏高效、细粒度的实验观察手段。因此,研究人员需要一种高效率计算框架,既能解析 RNA 动态异质性,又能重建其潜在能量景观。
过去二十多年中,RNA 结构与动力学计算模型不断发展,包括从头预测、模板建模、粗粒化模拟以及新兴 AI 方法。粗粒化策略通过减少分子自由度来提升采样效率。有些模型用多个 beads 表示一个核苷酸,有些模型用一个 bead 表示一个核苷酸,还有些模型进一步把螺旋和环简化为图结构。尽管这些方法取得了进展,但仍缺少一个统一框架,能够同时进行结构预测、热力学分析、动力学表征、力学模拟和折叠路径重建,尤其是在复杂较大 RNA 的高效采样方面仍存在明显瓶颈。
研究人员因此开发了 PlanarFold。该模型把 RNA 放在二维平面中演化,以二级结构为核心研究对象。PlanarFold 能够预测天然二级结构,捕捉替代构象和自由能差异,复现实验交换速率,模拟光镊实验中的展开与复折叠中间体,并分析共转录折叠和大 RNA 从头折叠路径。
方法
研究人员将每个 RNA 核苷酸表示为一个粗粒化 bead,并将其坐标限制在二维平面中演化。PlanarFold 的势能函数包含键连接、茎区角度、碱基配对、碱基堆叠、范德华相互作用和静电相互作用等项。其中最关键的创新是,碱基配对、碱基堆叠和茎区角度项并非固定施加在预定义二级结构上,而是在每个分子动力学时间步通过改造的 Nussinov 动态规划算法实时识别可能形成茎区的碱基对。该动态规划不仅考虑序列可配对性,还考虑当前二维坐标中残基之间的距离,从而使二级结构可以随模拟过程动态形成、断裂和重排。研究人员随后利用高质量 PDB RNA 结构构建训练集和测试集,通过模拟退火和 RNAstructure 辅助采样生成候选构象池,并用遗传算法优化力场参数,使模型能够从大量候选结构中识别天然或近天然二级结构。模型性能进一步通过二级结构预测、NMR 热力学与动力学数据、共转录折叠实验、光镊力谱实验以及大 RNA 从头折叠模拟进行验证。
结果
模型表示、力场设计与采样策略
研究人员基于两个观察设计 PlanarFold。第一,RNA 二级结构通常先于三级结构形成,并在许多动态过程中起主导作用。第二,RNA 二级结构本质上可以在二维平面中有效表示,而不一定需要完整三维几何。因此,PlanarFold 将 RNA 分子限制在二维空间中,用一个 bead 表示一个核苷酸,并让体系在牛顿动力学下演化。
这种单 bead 表示牺牲了核苷酸的原子细节,但保留了 A、U、C、G 四种碱基类型,使模型能够在极简框架中研究碱基配对形成、断裂和重排。相比多 bead 模型,PlanarFold 的采样效率更高;相比只依赖预定义二级结构的单 bead 模型,PlanarFold 又能动态识别并更新二级结构。其核心是把动态规划嵌入分子动力学。在每个时间步,模型根据瞬时坐标和碱基配对权重寻找当前最合理的茎区,从而决定哪些残基应受到配对、堆叠和角度约束。
这一设计解决了粗粒化 RNA 模型中的关键矛盾:如果模型太简化,就难以定义碱基配对和堆叠;如果模型太精细,则采样复杂 RNA 动态的效率不足。PlanarFold 通过动态规划实时定义二级结构,使单 bead 模型也能获得显式、可变的二级结构约束。

图1:PlanarFold 的二维粗粒化表示、动态规划辅助力场和采样框架。
优化力场参数用于 RNA 二级结构预测
为了可靠捕捉 RNA 动态,力场必须能够区分低能天然或近天然构象与高能误折叠构象。研究人员首先构建高质量 RNA 数据集,并生成每条 RNA 的候选二维构象池,然后优化 PlanarFold 力场参数,使其能够从候选池中选出最接近天然二级结构的构象。
为避免与深度学习预测器训练集重叠,研究人员整理了多个深度学习方法使用过的训练数据,并进一步构建独立测试集。该测试集包含新近释放的高分辨率 RNA PDB 结构,并去除与已有训练数据高度相似的序列。由于 PlanarFold 主要面向二维二级结构动力学,研究人员排除了大量长程假结和复杂非嵌套相互作用占比较高的 RNA。
PlanarFold 采用“采样—选择”策略,因此每条 RNA 需要足够丰富的候选构象池。研究人员结合无约束模拟退火和基于 RNAstructure 的有约束采样,生成天然、近天然和误折叠候选结构。随后,研究人员用遗传算法优化少量参数,这些参数控制静电、范德华、碱基配对、碱基堆叠和茎区角度等能量项的相对贡献。优化后的模型在独立测试集中显著提升了二级结构预测表现。
与多种传统方法和深度学习方法相比,PlanarFold 的单一输出表现略低于少数最强深度学习模型,但优于或接近许多传统方法和复杂模型。更重要的是,PlanarFold 使用的是简洁物理力场,而不是大规模神经网络,因此具有较好的序列独立性和泛化能力。在更严格的跨 RNA 家族验证中,PlanarFold 也表现出与 RNAstructure 和 mfold 相当的预测能力。
此外,PlanarFold 不仅能输出一个最低能构象,还能采样多个候选构象。当前 3 个或前 10 个候选构象作为集合考虑时,预测表现明显优于单一构象输出。这说明 PlanarFold 的优势不只是找到一个最优结构,还在于能提供 RNA 可能构象集合,为后续动力学和热力学分析奠定基础。

图2:PlanarFold 力场参数优化与 RNA 二级结构预测性能评估。
PlanarFold 再现 RNA 热力学和动力学
RNA 的热力学性质决定不同构象之间的相对稳定性,而动力学性质决定构象转换速率。许多 RNA 构象转换主要发生在二级结构层面,因此研究人员推测,二维模型也能有效复现这些热力学和动力学特征。
研究人员首先测试一组已由 NMR 表征的发夹 RNA。这些 RNA 发生 1 个核苷酸配准位移的碱基对重排。PlanarFold 通过长时间平衡轨迹统计不同状态的占比,并用一个全局缩放因子校准能量尺度。结果显示,PlanarFold 对自由能差的预测与 NMR 实验结果高度一致,整体表现接近 RNAstructure,并优于部分传统方法。
随后,研究人员扩展到更多类型的构象转换,包括 HIV SL1 中的 2 个核苷酸配准重排、多个双稳态 RNA 的全局二级结构重排、三稳态 RNA 的核化位点辅助转换,以及 7SK RNA SL3 中更复杂的茎区配准重排。PlanarFold 能够在多种情况下复现实验观察到的主要状态比例和转换行为。对于部分复杂系统,模型也揭示出实验之外的快速局部交换事件,提示其可用于发现隐藏动态过程。
研究人员还测试了单点突变对热力学的影响。在 P5abc 构建体中,PlanarFold 正确再现了不同突变对基态和激发态平衡的改变。例如,一个突变可翻转基态与激发态的相对稳定性,另一个突变可消除激发态。这说明 PlanarFold 能够用于预测突变如何重塑 RNA 构象景观。
更重要的是,PlanarFold 对动力学也表现出良好预测能力。研究人员将模拟中的前向、后向和总体交换速率与 NMR 测量结果比较,发现两者在多个数量级范围内具有良好相关性。根据这些结果,研究人员估算 PlanarFold 的等效时间尺度,即模拟中的短时间演化可对应真实世界中更长时间的 RNA 运动,整体速度提升约 5 万倍。与统计型粗粒化模型相比,PlanarFold 作为物理动力学模型能够更好地复现热力学和动力学,而不仅仅是采样构象。

图3:PlanarFold 对 RNA 构象转换热力学与动力学的定量再现。
PlanarFold 再现共转录折叠路径
在生理条件下,RNA 折叠通常从转录过程中就开始。随着 RNA 聚合酶逐步合成新生链,部分转录产物会形成动力学陷阱或中间体。这些中间体可能持续存在,并被生物调控机制利用。共转录折叠还会限制可访问路径数量,从而帮助 RNA 更快折叠到功能结构。
研究人员首先测试一对双稳态 RNA 开关。这两个 RNA 的序列方向相反,可形成能量接近的分支状结构和杆状结构。实验显示,直接顺序的 RNA 在共转录折叠中几乎完全形成分支状结构,而反向顺序的 RNA 则主要形成杆状结构。PlanarFold 根据等效时间尺度设置模拟转录速度,成功再现了这种方向依赖的折叠产物差异。直接开关在模拟中产生分支状构象,而反向开关分裂为两条路径,并主要形成杆状构象。
通过分析单分子轨迹,研究人员发现反向开关中的新生链能够通过核化位点辅助的链置换机制,从一个发夹转变到另一个发夹,随后形成杆状结构。相比之下,直接开关中相应核化区域更容易被其他局部结构占据,因此难以发起链置换。一个破坏核化位点的单点突变在实验中降低杆状构象比例,PlanarFold 也再现了这一趋势。
与一些理论模型不同,PlanarFold 作为分子动力学模型可以记录每一次转录事件中的瞬时结构和中间体,而不是只给出一步式状态转换。它能够看到旧链逐渐被新生链替代、竞争链之间偶发交换,以及可及性和稳定性如何共同影响链置换。
研究人员还用大肠杆菌信号识别颗粒 RNA 进一步验证模型。在不使用实验约束的情况下,PlanarFold 再现了此前由 SHAPE 实验支持的关键共转录折叠中间体和链置换事件。这说明 PlanarFold 可用于分析新生 RNA 动态集合,并可能指导设计突变或小分子来调控 RNA 共转录折叠路径。

图4:PlanarFold 模拟 RNA 共转录折叠路径和链置换中间体。
PlanarFold 捕捉 RNA 折叠路径与力学特征
RNA 通常按照层级方式折叠,二级结构先形成,随后进一步组装成高阶结构。复杂 RNA 的三级折叠可在秒到分钟尺度发生,而二级结构形成更快,往往难以在无外力条件下以残基分辨率直接观测。光镊实验能够通过拉伸和松弛 RNA,解析机械展开和复折叠路径。研究人员因此在 PlanarFold 中实现了受控分子动力学功能,用于模拟光镊拉伸和松弛过程,并与实验力谱结果比较。
研究人员首先测试短发夹 RNA P5ab。PlanarFold 能够识别实验中观察到的主要展开和复折叠中间体。尽管模拟中的部分断裂力和滞后现象与实验存在差异,但通过调整与实验缓冲液条件相关的参数,例如降低碱基配对强度和增强电荷屏蔽,模拟结果与实验更接近。这说明 PlanarFold 可以通过条件校准用于近似模拟不同实验环境下的机械行为。
随后,研究人员利用 P5ab 比较有外力和无外力条件下的折叠路径。结果显示,在无外力的从头折叠中,P5ab 经常陷入非天然动力学陷阱;而在外力作用下,这些陷阱被绕开,终端张力重塑了能量景观,使 RNA 更倾向沿着通往天然结构的路径折叠。这一结果提示,光镊测得的路径可能并不总是完全等同于自由折叠路径,外力本身会改变折叠景观。
为了证明 PlanarFold 能够处理更长 RNA,研究人员模拟了 pri-miR-30c,这是一个含多个内部环和 bulge loop 的长发夹。PlanarFold 再现实验验证的主要中间体,并显示展开和复折叠检查点主要位于较大内部环附近,因为这些位置中断了连续碱基堆叠。研究人员进一步测试一个没有内部环的 180 bp RNA 发夹。PlanarFold 同样捕捉到实验中的多个中间体,并发现停滞位点偏好出现在 GC 富集区域上游。这与 G-C 碱基对和连续堆叠更稳定的事实一致,说明即使在规则长螺旋中,局部序列组成也会塑造力学折叠路径。

图5:PlanarFold 再现 RNA 光镊实验中的机械展开、复折叠中间体和力学路径。
大型复杂 RNA 的从头折叠
当前许多计算模型难以从线性构象开始完成大型复杂 RNA 的从头折叠。研究人员测试了两个较大 RNA 系统:I 型内含子核酶的 P4-P6 结构域,以及 Mg²⁺ 感应核糖开关的适配体结构域 M-box。PlanarFold 能够在可接受计算时间内,从线性构象折叠出它们的二级结构。
在无约束从头折叠中,PlanarFold 对两个 RNA 均达到较高成功率。进一步地,受到前面 P5ab 结果启发,研究人员测试外力辅助复折叠是否能够减少非天然结构形成。结果表明,适当牵引力可以显著提高 P4-P6 和 M-box 的正确折叠成功率。外力通过重塑能量景观,使 RNA 经过一系列中间体更顺利地到达天然二级结构。
研究人员指出,这两个 RNA 在模拟退火过程中表现出自发退火到近天然状态并保持稳定的能力,可能反映某些功能 RNA 经进化优化后具有较少误折叠陷阱。例如 P4-P6 属于催化核酶结构域,可能需要快速且可靠地形成正确二级结构。PlanarFold 估计 P4-P6 的二级结构可在毫秒量级形成,明显快于其三级结构形成过程。相比之下,其他粗粒化模型在这些 RNA 上容易陷入误折叠状态,而 PlanarFold 能够在没有二级结构约束的情况下从头折叠较长复杂 RNA。
虽然 PlanarFold 当前只在二级结构层面运行,但其成功表明,将动态规划辅助分子动力学扩展到三维粗粒化模型,未来可能有助于模拟复杂 RNA 的三级折叠过程。

图6:PlanarFold 实现大型复杂 RNA 的从头二级结构折叠。
讨论
RNA 二级结构是 RNA 折叠动力学、三级结构形成和生物功能的基础。研究人员通过将动态规划、二维降维和单 bead 核苷酸表示结合,开发了 PlanarFold 这一二维粗粒化分子动力学模型。该模型聚焦于 RNA 二级结构层面的动态过程,能够用较少参数预测天然结构、替代构象和构象转换动力学。
PlanarFold 的优势在于同时兼顾了采样效率和动态可解释性。单 bead 粗粒化大幅平滑了 RNA 复杂崎岖的能量景观,使构象采样速度显著提高;动态规划则为每个时间步提供显式但可变的二级结构定义,使模型能够追踪碱基配对、堆叠、茎区形成和断裂。正是这种 DP 辅助分子动力学框架,使 PlanarFold 能够解析短暂中间体、构象切换事件、共转录链置换过程和机械折叠路径。
该模型也存在明确限制。由于 PlanarFold 是二维模型,它不适合研究主要由三级结构和三维长程相互作用主导的 RNA 动态。许多长程假结或非嵌套碱基对由于二维几何限制难以表示,因此 PlanarFold 更适用于嵌套或非交叉二级结构占主导的 RNA。对于假结含量高的 RNA,其适用性有限。研究人员指出,未来可沿着类似“动态规划辅助分子动力学”的思想开发三维粗粒化模型,以进一步模拟 RNA 三级折叠。
另一个限制是,当前模型对各种 loop 稳定性和非经典碱基对的序列依赖性处理仍较简化。这主要受限于实验热力学数据不足。未来,结合更多热力学数据、统计数据和 AI 驱动的快速量子化学计算,可能更准确地估计不同 loop 和非经典碱基对能量。RNA 能量景观还会受到离子、配体、核酸和蛋白质等外部因素强烈影响,因此未来模型也需要逐步纳入这些相互作用。
总体而言,PlanarFold 是一个面向 RNA 二级结构动力学的高效工具。它不仅可用于二级结构预测,还可用于热力学和动力学分析、共转录折叠研究、机械折叠路径解析以及大 RNA 从头折叠探索。未来如果加入 SHAPE 等实验约束、支持环状 RNA、开发更强可视化工具,并实现 GPU 加速,PlanarFold 有望成为研究大型 RNA 慢构象变化和动态功能机制的重要平台。
整理 | DrugOne团队
参考资料
Xiang, L., Xue, Y. PlanarFold: a coarse-grained molecular dynamics model of RNA in two-dimensional space. Nat Commun (2026).
https://doi.org/10.1038/s41467-026-74729-y

内容为【DrugOne】公众号原创|转载请注明来源
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢