当今时代,科学快速发展,由AI驱动的发现突飞猛进。在这样的背景下,研究人员应如何在海量的资源中发现可靠的信息来源并确保信息质量,以做出明智的决策?



文本和数据挖掘(text and data mining, TDM)使用计算工具和技术来分析大型文本数据集,从学术论文、期刊和其他科学出版物中的大量科学数据里提取有价值的见解,旨在识别通过传统人工分析难以或无法发现的模式、关联和趋势,近年来已逐渐发展成为一种强大的工具。


施普林格·自然的TDM工具赋予科研人员以“传统”渠道所不具备的检索和发现能力,并使其能够对信息进行深入探索。把TDM的强大功能与特定科研工具相结合,将有助于驱动变革性发现和一些重大社会挑战的创新解决方法。


如何将这一强大的工具引入到企业的研发架构中,让研究人员无需为了获取有用信息而研读数百篇文章?


扫码下载白皮书《揭开文本和数据挖掘的力量:TDM促进变革性发现的四种方式》,了解国际知名生物科技公司和制药企业的TDM使用案例


下文采访了我们的合作伙伴——某国际制药公司科学信息总监(应受访者要求匿名),她分享了施普林格·自然的TDM工具如何为其研究人员赋能,拓宽了他们的信息视野。我们也希望借此启发研究人员、数据科学家和研发部门从业者,并为如何将TDM引入企业研发架构提供建议。



向科学家提供可信赖的信息


驱使这位信息科学家对施普林格·自然的TDM工具产生兴趣的原因在于,她需要为科学家们提供通过其他渠道无法获取的信息,这些科学家们已习惯于在学校时就使用的PubMed(一个免费的生物医学和生命科学文献数据库)。然而,这位信息科学家意识到,与其试图与科学家们熟悉的资源竞争,不如为他们提供新的工具,拓宽他们的信息视野,令其更好地了解所在领域的最新发展。



PubMed的一大不足是只有文章的摘要是可被检索的,比如研究方法部分提到的方法或概念则无法让这篇文章出现在PubMed搜索结果中。由此,这位信息科学家看到了通过引入施普林格·自然的语义和自然语言处理(NLP)搜索工具来显著提高信息的可发现性。


她选择与施普林格·自然合作,因为“我们从施普林格·自然获得的数据就像是一颗原始的钻石。我们当然会再加工,为其添加分类并创建实体。但施普林格·自然的TDM为我们提供了无法通过其他途径获取到的极优质原始数据。


通过将施普林格·自然的语义搜索结果添加到PubMed订阅源中,她已经成功地提升了其科研团队所依赖的这个订阅源,她解释说:“除了PubMed搜索,科研人员不需要知道我们在后台还进行了全文搜索,但他们可以体会到这所带来的益处。”


她的团队还在努力优化语言模型,以完成对整篇文章文本的总结,这类总结通常与文章已有摘要有很大不同,囊括了在摘要中找不到的概念,进一步提升了发现能力,超越了PubMed或简单的全文搜索。


施普林格·自然的文本和数据挖掘


文本和数据挖掘(TDM)对大量的文本或数据资源进行自动选择和分析,产出研究和研究项目所需的有用信息,帮助研究人员检索内容、寻找模式、发现关系、语义分析和了解内容与概念和需求之间的关联等。


TDM的创新之处在于,研究人员就算不知道具体要问什么,也能对数据集进行分析。如今,AI已基本成熟——它不单能呈递信息,还能提供建议、做出决策并生成内容。


施普林格·自然开发了各种工具,旨在方便研究人员对我们丰富的出版物资源进行文本和数据挖掘。


适用于开放获取内容的TDM

施普林格·自然开放获取内容API:提供施普林格·自然开放获取XML格式的元数据和全文内容(如有),覆盖来自不同学科领域、超649,000篇在线文献,其中包括BioMed Central和SpringerOpen期刊。我们支持XML、JSON等多种数据输出格式。


适用于订阅用户的TDM

针对订阅用户,施普林格·自然提供各种各样的TDM组合数据,如元数据或全文API,同时适用于开放获取和订阅内容。


除知名的《自然》系列期刊和Springerlink期刊、图书之外,施普林格·自然还拥有SpringerMaterials、AdisInsight、SpringerProtocols等专业数据库。


TDM数据库可同时为订阅用户定制化组合不同数据模块,以方便用户的检索和使用。


适用于非订阅用户的TDM

我们也提供多种TDM工具便于非订阅用户获得开放获取资源,例如开放获取内容的全文API。对于非订阅用户基于付费订阅内容提出的TDM需求,我们将根据具体情况进行处理。


如您想进一步了解施普林格·自然在文本和数据挖掘方面提供的支持,欢迎扫码留下您的需求。


欢迎点击“阅读原文”探索施普林格·自然的TDM工具