LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

简介

多模态深度学习通过整合文本、图像、音频和视频等多种信息源来增强决策能力。为了开发可靠的多模态方法，了解不确定性如何影响这些模型至关重要。我们介绍了LUMA，一个独特的基准数据集，其中包含来自50个类别的音频、图像和文本数据，用于学习不确定和多模态数据。它通过从三个音频语料库中提取音频样本和使用Gemma-7B大型语言模型（LLM）生成文本数据来扩展了众所周知的CIFAR 10/100数据集。LUMA数据集使得可以注入不同类型和程度的不确定性来实现和定制特定的实验和基准测试。LUMA还作为一个Python包提供，包括生成数据集的多个变体的函数，可以控制数据的多样性、每种模态的噪声量以及添加超出分布的样本。除了提供基线预训练模型外，还提供了三种不确定性量化方法：蒙特卡罗失活、深度集成和可靠的冲突多视图学习。这个全面的数据集及其工具旨在促进和支持可靠和强大的多模态深度学习方法的开发和基准测试。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决多模态深度学习中不确定性对模型决策的影响问题，并提出了一个新的基准数据集LUMA。
关键思路

LUMA数据集包含来自50个类别的音频、图像和文本数据，并允许注入不同类型和程度的不确定性，以实现和定制特定的实验和基准测试。
其它亮点

本文提供了一个Python包，包括生成多个数据集变体的函数，控制数据的多样性、每种模态的噪声量以及添加超出分布的样本。此外，本文还提供了一个预训练的基准模型以及三种不确定性量化方法。
相关研究

最近相关的研究包括《Multimodal Deep Learning: A Survey》、《Multimodal Deep Learning for Human Emotion Recognition: A Survey》等。

LUMA: A Benchmark Dataset for Learning from Uncertain and Multimodal Data

提问交流

提问交流