Nat. Methods | GPU 加速的 MMseqs2 同源搜索

DRUGONE

随着蛋白质数据库规模的快速增长，对更快、更敏感的同源性搜索工具的需求愈发迫切。研究人员开发了 GPU 加速版 MMseqs2 (MMseqs2-GPU)，在单一蛋白搜索中比基于 128 核 CPU 的方法快 6 倍，在大规模批量任务中，使用 8 张 GPU 时可实现 2.4 倍的成本效率提升。MMseqs2-GPU 能显著加速结构预测与比对任务，例如在 ColabFold 中的多序列比对生成较 AlphaFold2 标准流程快 31.8 倍，在 Foldseek 中的结构搜索快 4–27 倍。该工具已开源，面向全球科研人员。

蛋白质同源性搜索是理解功能与结构的核心环节。传统的 Smith–Waterman–Gotoh 动态规划算法能保证最优比对，但计算代价极高。为提高效率，BLAST、PSI-BLAST、MMseqs2 与 DIAMOND 等工具采用启发式方法；HMMER 与 HHblits 则使用更敏感但计算代价高的基于动态规划的筛选。然而，即便有 CPU 并行化优化和 FPGA 加速器，面对超大规模数据库时仍然受限。GPU 的并行优势为加速同源性搜索提供了新的机会。研究人员将两类 GPU 加速算法集成到 MMseqs2 中：无缺口筛选与基于 PSSM 的有缺口比对，在保持灵敏度的同时显著提高了速度和效率。

方法

算法设计

无缺口筛选 (Gapless filter)：利用 GPU 将查询 PSSM 映射到矩阵列，参考序列映射到行，每一行并行处理，结合共享内存和 16 位数据表示，实现高吞吐率。
Smith–Waterman–Gotoh GPU 实现：在 CUDASW++4.0 的基础上修改，使其适应 PSSM 输入，采用波前模式处理动态规划依赖。

并行与优化

多线程分组与瓦片优化，用于处理不同长度的序列。
使用共享内存副本和 warp-shuffle 指令，减少访存冲突并加快线程间通信。
支持数据库分片与多 GPU 分布式计算。
通过数据库流式传输，实现对超大数据库的处理，避免 GPU 内存瓶颈。

结果

性能提升

在随机序列上，单张 L40S GPU 可达 13.5 TCUPS，速度提升 2.8 倍；8 张 GPU 可达 102 TCUPS，提升 21.4 倍。
在真实蛋白质序列上，速度进一步提升至单卡 18.4 倍，多卡 110 倍，超过以往 FPGA 和 GPU 加速方法两个数量级。

搜索敏感性

在保持 ROC1 ~0.40 的条件下，MMseqs2-GPU 与 CPU 版本具有相同敏感性。
迭代搜索可进一步提高灵敏度，三次迭代时 ROC1 接近 JackHMMER。

单查询与大批量性能

在单查询下，MMseqs2-GPU 比 JackHMMER 快 177 倍，比 BLAST 快 6.4 倍。
在 6370 个查询的批量任务中，8 张 GPU 下比 CPU 快 2.4 倍。
云计算成本比较显示，MMseqs2-GPU 是所有方法中最具性价比的方案。

结构预测与 Foldseek 搜索

在 ColabFold 流程中，MMseqs2-GPU 使多序列比对生成加速 176 倍，整体结构预测加速 31.8 倍，同时保持 TM-score (0.70 ± 0.05) 不变。

在 Foldseek 中，单卡 GPU 加速比 CPU 快 4 倍，8 卡提升至 27 倍，且灵敏度略有提升。

能效与内存优化

在单批次场景中，4 张 L40S GPU 的能效比 JackHMMER 高 80 倍，比 CPU MMseqs2 高 2.1 倍。
内存需求从每个残基 ~7 字节降低到 ~1 字节，支持数据库分布式存储与流式加载，进一步减少硬件限制。

讨论

MMseqs2-GPU 展示了 GPU 加速在蛋白质同源性搜索中的巨大潜力：

高速度与高效率：显著超越传统 CPU、GPU 及 FPGA 方法。
低成本与低门槛：云计算环境中具备最佳性价比，支持 ColabFold 等轻量化环境使用。
广泛适用性：可直接应用于结构预测、同源性检索、蛋白质语言模型、直系同源推断等多个场景。

局限性包括：

高灵敏度搜索仍需多次迭代，存在计算负担；
超长序列（>2000 aa）的比对仍需进一步优化；
部分 GPU 型号性能差异较大（如 A100 较 L40S 慢约 1.6 倍）。

未来方向：

融合时间动态数据与蛋白质语言模型，加速多序列比对与相似性学习；
扩展至大规模宏基因组数据库，加快新功能蛋白发现；
优化跨 GPU 集群的分布式架构，提升大规模任务的并行效率。

总结

MMseqs2-GPU 在保持高灵敏度的同时，大幅加速蛋白质同源性搜索、结构预测与比对任务，并显著降低能耗与成本。这一框架不仅为基础生物学研究提供了高效工具，也为药物研发、蛋白质工程和人工智能驱动的生物学探索提供了技术支撑。

整理 | DrugOne团队

参考资料

Kallenborn, F., Chacon, A., Hundt, C. et al. GPU-accelerated homology search with MMseqs2. Nat Methods (2025).

https://doi.org/10.1038/s41592-025-02819-8

内容为【DrugOne】公众号原创｜转载请注明来源

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Nat. Methods | GPU 加速的 MMseqs2 同源搜索

评论列表

评论