IDEFICS是Flamingo的复制品,Flamingo是由DeepMind开发的多模态模型,尚未公开发布。

Hugging Face发布80B开放访问视觉语言模型IDEFICS。

官网地址:https://huggingface.co/blog/idefics 

github地址:https://github.com/huggingface/blog/blob/main/idefics.md 

 

该模型仅建立在公开可用的数据和模型之上。这是开放获取中第一个这种规模的视觉语言模型!IDEFICS部分在OBELICS上进行了训练,OBELICS是一个新的跨交错图像文本文档的开放大规模数据集,包括从Common Crawl中提取的141亿个网页、353M个相关图像和115B文本令牌,并有两种变体——基础版本和指令版本。每个变体都有90亿和800亿的参数大小。

资源:
公告:https://huggingface.co/blog/idefics
演示:https://huggingface.co/spaces/HuggingFaceM4/idefics_playground
Demo:https://huggingface.co/HuggingFaceM4/idefics-80b-instruct

OBELICS数据集:https://huggingface.co/datasets/HuggingFaceM4/OBELICS
OBELICS论文:https://arxiv.org/abs/2306.16527
案例:https://github.com/huggingface/m4-logs/blob/master/memos/README.md

什么是IDEFICS?

IDEFICS是一个800亿参数多模态模型,接受图像和文本序列作为输入,并生成连贯的文本作为输出。它可以回答有关图像的问题,描述视觉内容,创建基于多个图像的故事等。

IDEFICS是Flamingo的开放访问复制品,在各种图像文本理解基准中,其性能可与原始闭源模型相媲美。它有两种变体——800亿参数和90亿参数。

IDEFICS是在公开可用的数据集混合上接受训练的:维基百科、公共多模态数据集和LAION,以及我们创建的名为OBELICS的新115B令牌数据集。OBELICS由从网络上抓取的1.41亿份交错图像文本文档组成,包含3.53亿张图像。

我们提供OBELICS的交互式可视化,允许使用Nomic AI探索数据集的内容。

该模型建立在两个预训练模型之上:laion/CLIP-ViT-H-14-laion2B-s32B-b79Khuggyllama/llama-65b

内容中包含的图片若涉及版权问题,请及时与我们联系删除