近几年来,机器学习(Machine Learning, ML)在生物药医药领域的应用有了长足发展,吸引越来越多的机器学习研究者也投入到这个有意义而且有影响力的领域来。
但是,辨认什么样的生物医药问题是可以获益于ML的,并且将现实问题抽象成ML问题需要相关生物医药背景知识。而且生物医药是个巨大的领域,很多数据集都分散在各个角落,没有一个中心的平台来整理和获取这些数据。因此对于一般机器学习的研究者来说,获取和处理原始生物医药数据得到ML-Ready数据也并非易事。由于这些原因,现在的ML研究者在方法研究上只关注非常少的几个任务,在几个小数据集上来增进结果的几个点,然而大量的有意义的任务都还没有被前沿的ML方法所研究。这个极大的降低了ML在生物医药领域的研究进度。
为了解决这个问题,我(Kexin)和来自Georgia Tech的Tianfan, MIT的Wenhao, CMU的Yue,Stanford的Yusuf,以及我们的导师们Connor, Jure, Jimeng, Danica和Marinka,一起发起了Therapeutics Data Commons(TDC), 第一个大规模的ML在生物医药上面的数据集,基准,和生态系统。
上图是TDC的一个综述,TDC提供的功能贯穿整个机器学习在药物研发的所有环节。
生物医药是个巨大的领域,有着无数多的问题。TDC目前包含的只是冰山一角。我们需要更多对这个领域感兴趣的志同道合的朋友来加入我们!
我们最近刚举行了一次用户研讨会,里面详细介绍了TDC,并描述了TDC未来的发展方向,小伙伴们可以戳这个链接观看研讨会的录像:
https://tinyurl.com/tdc-meeting-220125
更多关于TDC的信息:
GitHub:
https://github.com/mims-harvard/TDC
网站:
Paper:
https://openreview.net/forum?id=8nvgnORnoWr
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢