最近多模态研究圈中出现了一个扬言 “史上最大规模”的多模态图文数据集:LAION-400。该数据集在今年8月完全公开,共计公开了 4亿图文对,可以依据不同的用途提供不同大小版本的子数据集。

LAION-400M 通过 CommonCrawl 提取出随机抓取 2014-2021 年的网页中的图片、文本内容。通过 OpenAI 的 Clip 计算,去除了原始数据集中文本和图片嵌入之间预先相似度低于0.3的内容和文本,提供了4亿个初筛后的图像文本对样本。

数据集下载链接:

https://laion.ai/laion-400-open-dataset/

LAION-400M 数据样例

本文整理了一些常见的多模态任务常用的数据集。

多模态情感分析

1. IEMOCAP数据集

数据集下载链接:

https://sail.usc.edu/iemocap/

2. MELD数据集

数据集下载链接:

https://affective-meld.github.io/

3. CH-SIMS数据集

数据集下载链接:

https://drive.google.com/drive/folders/1E5kojBirtd5VbfHsFp6FYWkQunk73Nsv

4. SEMAINE数据集

数据集下载链接:

https://semaine-db.eu/DailyDialog

多模态检索

1. COCO

数据集下载链接:

https://cocodataset.org/#download

2. IAPR TC-12数据集

数据集下载链接:

https://www.imageclef.org/photodata

3. Conceptual Captions Dataset

数据集下载链接:

https://github.com/google-research-datasets/conceptual-captions

多模态对话

1. OpenViDial 数据集

数据集下载链接:

https://github.com/ShannonAI/OpenViDial