- 简介在这项工作中,我们推出了OmniGen2,这是一种多功能且开源的生成模型,旨在为各种生成任务提供统一的解决方案,包括文本到图像生成、图像编辑以及上下文内生成。与OmniGen v1不同,OmniGen2为文本和图像模态分别设计了两个独立的解码路径,采用不共享的参数和解耦的图像编码器。这一设计使得OmniGen2可以在现有多模态理解模型的基础上进行构建,而无需重新适配VAE输入,从而保留原有的文本生成能力。为了支持OmniGen2的训练,我们开发了全面的数据构建流程,涵盖图像编辑和上下文内生成所需的数据。此外,我们还为图像生成任务引入了一种专门设计的反思机制,并基于OmniGen2构建了一个专用的反思数据集。尽管参数规模相对适中,OmniGen2在多个任务基准测试中仍取得了具有竞争力的结果,包括文本到图像生成和图像编辑。为了进一步评估上下文内生成(也称为主题驱动任务),我们引入了一个新的基准测试集OmniContext。在开源模型中,OmniGen2在一致性方面达到了最先进的性能水平。我们将发布模型、训练代码、数据集以及数据构建流程,以支持该领域的未来研究。项目页面:https://vectorspacelab.github.io/OmniGen2;GitHub链接:https://github.com/VectorSpaceLab/OmniGen2
- 图表
- 解决问题论文旨在解决多模态生成任务中的统一建模问题,即如何设计一个能够在多种生成任务(如文本到图像、图像编辑和上下文生成)中表现优异的开放源代码模型。同时,它试图验证是否可以通过解耦文本和图像解码路径来提高模型灵活性和性能。
- 关键思路OmniGen2 的关键思路是采用两个独立的解码路径分别处理文本和图像模态,并使用解耦的图像 tokenizer。这种设计避免了重新适配 VAE 输入的需求,从而能够直接基于现有的多模态理解模型进行扩展,同时保留原有的文本生成能力。
- 其它亮点{提出了一种新的反射机制,专门用于图像生成任务,并构建了一个对应的反射数据集。,开发了完整的数据构建流程,支持图像编辑和上下文生成任务的数据生成。,"尽管参数规模相对较小,OmniGen2 在多个基准测试中表现出色,特别是在一致性方面达到了开源模型的 SOTA。","推出一个新的评估基准 OmniContext,用于评测上下文生成能力。",作者承诺开源模型、训练代码、数据集及数据构建流程,以促进后续研究。}
- {"Flamingo: A Visual Language Model for Few-Shot Learning","KOSMOS-1: A Multimodal Large Language Model with Modality-Agnostic Tokens","BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and LM-based Prompting","LaVIT: Language Vision Transformer without Cross-modal Attention","OmniGen v1: The First Version of the Unified Generative Model"}
沙发等你来抢
去评论
评论
沙发等你来抢