LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

2024年06月14日
  • 简介
    多模态深度学习通过整合文本、图像、音频和视频等多种信息源来增强决策能力。为了开发可靠的多模态方法,了解不确定性如何影响这些模型至关重要。我们介绍了LUMA,一个独特的基准数据集,其中包含来自50个类别的音频、图像和文本数据,用于学习不确定和多模态数据。它通过从三个音频语料库中提取音频样本和使用Gemma-7B大型语言模型(LLM)生成文本数据来扩展了众所周知的CIFAR 10/100数据集。LUMA数据集使得可以注入不同类型和程度的不确定性来实现和定制特定的实验和基准测试。LUMA还作为一个Python包提供,包括生成数据集的多个变体的函数,可以控制数据的多样性、每种模态的噪声量以及添加超出分布的样本。除了提供基线预训练模型外,还提供了三种不确定性量化方法:蒙特卡罗失活、深度集成和可靠的冲突多视图学习。这个全面的数据集及其工具旨在促进和支持可靠和强大的多模态深度学习方法的开发和基准测试。
  • 作者讲解
  • 图表
  • 解决问题
    本文旨在解决多模态深度学习中不确定性对模型决策的影响问题,并提出了一个新的基准数据集LUMA。
  • 关键思路
    LUMA数据集包含来自50个类别的音频、图像和文本数据,并允许注入不同类型和程度的不确定性,以实现和定制特定的实验和基准测试。
  • 其它亮点
    本文提供了一个Python包,包括生成多个数据集变体的函数,控制数据的多样性、每种模态的噪声量以及添加超出分布的样本。此外,本文还提供了一个预训练的基准模型以及三种不确定性量化方法。
  • 相关研究
    最近相关的研究包括《Multimodal Deep Learning: A Survey》、《Multimodal Deep Learning for Human Emotion Recognition: A Survey》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问