STimage-1K4M: A histopathology image-gene expression dataset for spatial transcriptomics

向作者提问

NEW

简介

最近多模态算法的进步推动并受到大型图像文本数据集的不断增加的驱动，从而在包括计算病理学在内的各个领域取得了重大进展。然而，在大多数现有的医学图像文本数据集中，文本通常提供高层次的摘要，可能无法充分描述大型病理图像中的子瓷砖区域。例如，一张图像可能覆盖包含癌症和健康区域的广泛组织区域，但附带的文本可能仅指定该图像是癌症幻灯片，缺乏需要深入分析的细致细节。在这项研究中，我们介绍了STimage-1K4M，这是一个新颖的数据集，旨在通过为子瓷砖图像提供基因组特征来弥合这一差距。STimage-1K4M包含1,149个图像，这些图像来自空间转录组学数据，该数据捕获了病理图像内单个空间斑点的基因表达信息。具体而言，数据集中的每个图像都被分解成较小的子图像瓷砖，每个瓷砖都与15,000-30,000维基因表达式配对。通过4,293,195对子瓷砖图像和基因表达式的配对，STimage-1K4M提供了前所未有的细粒度，为多模态数据分析中的广泛先进研究和计算病理学及其他领域的创新应用铺平了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决现有医学图像-文本数据集中文本描述不足以对大型病理图像中的子区域进行充分描述的问题。作者提出了一个新的数据集STimage-1K4M，提供了每个子图像瓦片对应的基因表达谱，以提供更细致的图像-文本数据。
关键思路

本文提出了一种新的数据集STimage-1K4M，其中每个大型病理图像被分解成更小的子图像瓦片，并为每个子图像瓦片提供了对应的基因表达谱，以提供更细致的图像-文本数据，为多模态数据分析和计算病理学等领域提供了更高的粒度。
其它亮点

本文提出的STimage-1K4M数据集包含1,149张病理图像，每张图像都被分解成更小的子图像瓦片，并为每个子图像瓦片提供了15,000-30,000维的基因表达谱，共有4,293,195个子图像瓦片和基因表达谱对。该数据集为多模态数据分析和计算病理学等领域提供了更高的粒度。作者还进行了实验验证，证明了该数据集的有效性。
相关研究

最近在这个领域中，还有一些相关的研究，如：1. "Multi-modal Learning on Medical Images and Reports"；2. "Deep Learning for Multi-modal Medical Image Analysis"。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问