Sci. Data | TrialBench：首个多模态 AI 可用的临床试验预测数据集平台

DRUGAI

“临床试验是新药从实验室走向患者的关键桥梁，但其失败率高、周期长、成本巨大。我们希望借助人工智能重塑这条桥梁。”

2025 年 9 月，Nature 子刊 Scientific Data 正式发表了《TrialBench：Multi-Modal AI-Ready Datasets for Clinical Trial Prediction》。这一数据集由香港科技大学（广州）陈晋泰助理教授联合南京大学符天凡副教授、IQVIA 、哈佛医学院等团队合作推出，构建了首个面向人工智能的多模态临床试验预测平台。研究成果不仅系统整合了临床试验数据，还为 AI 研究与药物研发搭建了一个开放、可复用的标准基准。

数据集已向全球开放，研究者可通过以下链接获取和使用： https://huyjj.github.io/Trialbench/。

为什么要做这个平台？

在制药与医学研究的世界里，临床试验是一项极其核心但也极其困难的工作：跨越多个阶段，耗时往往超过十年，平均成本可能高达数十亿美元，且成功率通常不足 15%。尽管 ClinicalTrials.gov 等数据库已经积累了数十万条历史记录，要把这些信息转化为 AI 可以直接利用的预测任务仍然是一项巨大挑战。过去的研究多半聚焦于某一个子任务，缺乏一个统一的平台来承载多模态、多任务的研究与验证。

为此，研究团队推出了TrialBench —— 一个多模态、任务丰富且公开可用的临床试验预测平台，旨在为 AI 研究者和医学研究者搭建桥梁。

平台亮点

TrialBench 汇集了 23 个子数据集，覆盖 8 大预测任务，具体包括：

一、预测试验时长，即估计一项临床试验从开始到结束可能持续多久。

二、预测病人的退出率，帮助研究者提前识别试验中可能出现的招募和留存问题。

三、预测严重不良事件，提前发现潜在的安全风险。

四、预测死亡事件，评估试验方案可能带来的极端风险。

五、预测临床试验能否获得批准或最终成功。

六、识别失败原因，例如招募失败、安全问题或疗效不足。

七、根据试验背景信息自动生成入选标准，从而辅助研究者设计更合理的受试者筛选条件。

八、预测合理的给药剂量，结合药物分子结构和试验要素，给出剂量水平建议。

研究团队不仅设计了这些任务，还提供了基线模型、评价指标和多模态融合方法，确保数据集“开箱即用”。

更重要的是，TrialBench 整合了 ClinicalTrials.gov 的试验记录、DrugBank 的药物信息和 TrialTrove 的试验注释，从而增强了数据的广度与预测能力。通过图神经网络处理药物分子结构、Bio-BERT 解析临床文本、基于层级注意力的模型理解疾病编码，TrialBench 为复杂多模态任务提供了系统化解决方案。

八大临床试验预测问题总结

模型与实验结果

研究团队在多个任务上进行了实验验证。在 14 个二分类任务中，多模态深度模型有 11 个的 F1 分数超过 0.7，证明了这些任务具备较高的可预测性和实用价值。作者还提供了 Python 和 R 工具包，方便研究者下载数据、运行模型并复现实验结果。

数据集效果验证

Python与R包的使用

已有应用与验证

TrialBench 发布不久，已经被业界与学界关注并应用。Google DeepMind 在其最新的TxGemma模型中，就使用 TrialBench 进行不良事件预测的微调示例，相关案例已在 Google Developers Blog 和 TxGemma 的技术论文中公开展示。此外，近期提出的 AUTOCT（Automating Interpretable Clinical Trial Prediction with LLM Agents） 也将 TrialBench 用作基准，用于评估临床试验批准与结果预测任务的表现。TrialBench 正逐步成为临床试验预测领域的重要基准。

意义与展望

TrialBench 的出现打破了 AI 与医药研究之间的隔阂。一方面，它让 AI 研究者能够直接切入临床试验预测这一复杂而关键的领域；另一方面，它为医学与制药界提供了一个可直接应用与扩展的工具，推动临床试验设计、风险控制与资源配置的智能化。

未来，随着 TrialBench 的不断扩展与更新，它有望成为 AI 与临床试验研究交叉领域的基石平台。更多研究者将能够基于 TrialBench 开发新方法、检验新模型，从而加速药物研发和临床试验设计的创新进程。

参考资料

Chen, J., Hu, Y., Cai, M. et al. TrialBench: Multi-Modal AI-Ready Datasets for Clinical Trial Prediction. Sci Data 12, 1564 (2025).

https://doi.org/10.1038/s41597-025-05680-8

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Sci. Data | TrialBench：首个多模态 AI 可用的临床试验预测数据集平台

评论列表

评论