HoneyBee: A Scalable Modular Framework for Creating Multimodal Oncology Datasets with Foundational Embedding Models

2024年05月13日
  • 简介
    为了开发准确的肿瘤机器学习模型,需要大规模、高质量的多模态数据集。然而,由于医学数据的复杂性和异质性,创建这样的数据集仍然具有挑战性。为了解决这个问题,我们介绍了HoneyBee,这是一个可扩展的模块化框架,用于构建多模态肿瘤数据集,利用基础模型生成代表性的嵌入。HoneyBee集成了各种数据模态,包括临床诊断和病理成像数据、医学笔记、报告、记录和分子数据。它采用数据预处理技术和基础模型来生成嵌入,捕捉原始医学数据中的基本特征和关系。生成的嵌入以结构化格式存储,使用Hugging Face数据集和PyTorch数据加载器进行访问。向量数据库实现了高效的查询和检索,以供机器学习应用程序使用。我们通过评估这些嵌入的质量和代表性来展示HoneyBee的有效性。该框架旨在可扩展到其他医学领域,并旨在通过提供高质量的、机器学习就绪的数据集来加速肿瘤学研究。HoneyBee是一个持续开源的努力,代码、数据集和模型可在项目存储库中获得。
  • 图表
  • 解决问题
    如何构建大规模、高质量的多模态肿瘤数据集,以支持准确的机器学习模型?
  • 关键思路
    引入HoneyBee框架,利用基础模型生成代表性嵌入向量,将临床诊断、病理影像、医疗记录、分子数据等多种数据模态整合,并采用预处理技术和基础模型生成嵌入向量,以捕捉原始医疗数据中的关键特征和关系。嵌入向量存储在结构化格式中,使用Hugging Face datasets和PyTorch dataloaders进行访问,利用向量数据库实现高效的查询和检索。
  • 其它亮点
    该框架可以扩展到其他医学领域,并旨在通过提供高质量、机器学习准备的数据集加速肿瘤学研究。通过实验评估了嵌入向量的质量和代表性。该项目是一个开源的持续努力,代码、数据集和模型都可以在项目存储库中获得。
  • 相关研究
    最近在这个领域的相关研究包括:1)使用深度学习技术构建肿瘤数据集的研究;2)利用多模态数据进行肿瘤预测的研究;3)利用自然语言处理技术提取医疗记录中的信息的研究。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论