基于Flamingo，Hugging Face发布开放视觉语言模型IDEFICS

IDEFICS是Flamingo的复制品，Flamingo是由DeepMind开发的多模态模型，尚未公开发布。

Hugging Face发布80B开放访问视觉语言模型IDEFICS。

官网地址：https://huggingface.co/blog/idefics

github地址：https://github.com/huggingface/blog/blob/main/idefics.md

该模型仅建立在公开可用的数据和模型之上。这是开放获取中第一个这种规模的视觉语言模型！IDEFICS部分在OBELICS上进行了训练，OBELICS是一个新的跨交错图像文本文档的开放大规模数据集，包括从Common Crawl中提取的141亿个网页、353M个相关图像和115B文本令牌，并有两种变体——基础版本和指令版本。每个变体都有90亿和800亿的参数大小。

资源：
公告：https://huggingface.co/blog/idefics
演示：https://huggingface.co/spaces/HuggingFaceM4/idefics_playground
Demo：https://huggingface.co/HuggingFaceM4/idefics-80b-instruct

OBELICS数据集：https://huggingface.co/datasets/HuggingFaceM4/OBELICS
OBELICS论文：https://arxiv.org/abs/2306.16527
案例：https://github.com/huggingface/m4-logs/blob/master/memos/README.md

什么是IDEFICS？

IDEFICS是一个800亿参数多模态模型，接受图像和文本序列作为输入，并生成连贯的文本作为输出。它可以回答有关图像的问题，描述视觉内容，创建基于多个图像的故事等。

IDEFICS是Flamingo的开放访问复制品，在各种图像文本理解基准中，其性能可与原始闭源模型相媲美。它有两种变体——800亿参数和90亿参数。

IDEFICS是在公开可用的数据集混合上接受训练的：维基百科、公共多模态数据集和LAION，以及我们创建的名为OBELICS的新115B令牌数据集。OBELICS由从网络上抓取的1.41亿份交错图像文本文档组成，包含3.53亿张图像。

我们提供OBELICS的交互式可视化，允许使用Nomic AI探索数据集的内容。

该模型建立在两个预训练模型之上：laion/CLIP-ViT-H-14-laion2B-s32B-b79K和huggyllama/llama-65b。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

基于Flamingo，Hugging Face发布开放视觉语言模型IDEFICS

评论