BIOSCAN-5M: A Multimodal Dataset for Insect Biodiversity

2024年06月18日
  • 简介
    本文旨在作为全球努力理解和监测昆虫生物多样性的一部分,向机器学习社区介绍BIOSCAN-5M昆虫数据集,并建立几个基准任务。BIOSCAN-5M是一个全面的数据集,包含超过500万昆虫标本的多模态信息,并通过包括分类标签、原始核苷酸条形码序列、分配的条形码索引号和地理信息,显著扩展了现有的基于图像的生物数据集。我们提出了三个基准实验,以展示多模态数据类型对分类和聚类准确性的影响。首先,我们在BIOSCAN-5M数据集的DNA条形码序列上预训练了一个掩码语言模型,并展示了使用这个大型参考库对物种和属级别分类性能的影响。其次,我们提出了一个零样本迁移学习任务,应用于图像和DNA条形码,以聚类从自监督学习中获得的特征嵌入,以研究这些表示嵌入是否可以得出有意义的聚类。第三,我们通过对DNA条形码、图像数据和分类信息进行对比学习来评估多模态性能。这产生了一个通用的共享嵌入空间,可以使用多种信息和模态进行分类。BIOSCAN-5M昆虫数据集的代码存储库可在https://github.com/zahrag/BIOSCAN-5M获得。
  • 图表
  • 解决问题
    本文旨在向机器学习社区介绍BIOSCAN-5M昆虫数据集,并建立几个基准任务,以帮助理解和监测昆虫生物多样性。主要解决的问题是如何使用包含多种模态信息的数据集来提高分类和聚类的准确性。
  • 关键思路
    本文提出了三个基准实验,探究多模态数据类型对分类和聚类准确性的影响。首先,使用DNA条形码序列预训练掩蔽语言模型,展示了这个大型参考库对物种和属级分类性能的影响。其次,提出了一项零样本迁移学习任务,应用于图像和DNA条形码,以聚类自监督学习获得的特征嵌入,以研究是否可以从这些表示嵌入中得出有意义的聚类。第三,通过对DNA条形码、图像数据和分类信息进行对比学习,对多模态进行了基准测试,从而产生了一个通用的共享嵌入空间,可以使用多种信息和模态进行分类。
  • 其它亮点
    本文提出了一个包含超过500万昆虫标本的全面数据集BIOSCAN-5M,其中包含分类标签、原始核苷酸条形码序列、分配的条形码索引号和地理信息等多种模态信息。本文提出的三个基准实验展示了多模态数据类型对分类和聚类准确性的影响,并提出了一种新的方法,使用DNA条形码序列预训练掩蔽语言模型,以提高分类性能。本文还提供了代码库。
  • 相关研究
    最近在这个领域,还有一些相关的研究正在进行。例如,有研究使用图像和文本数据进行迁移学习来识别昆虫物种。还有一些研究使用深度学习方法来识别昆虫物种。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论