Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing

2025年10月22日
  • 简介
    近年来,多模态模型取得了显著进展,展现出卓越的文本引导图像编辑能力,诸如GPT-4o和Nano-Banana等系统树立了新的标杆。然而,研究界的发展仍受限于缺乏基于真实图像构建的大规模、高质量且公开可用的数据集。我们推出了Pico-Banana-400K,这是一个面向指令式图像编辑的综合性数据集,包含40万张图像。该数据集利用Nano-Banana从OpenImages图像库中的真实照片生成多样化的图像编辑配对样本。与以往的合成数据集不同,Pico-Banana-400K的突出之处在于我们对质量和多样性的系统性把控。我们采用细粒度的图像编辑分类体系,确保涵盖广泛的编辑类型,同时借助基于多模态大语言模型(MLLM)的质量评分机制和精心筛选,保障内容的高度保留以及对编辑指令的准确遵循。除了支持单轮编辑任务外,Pico-Banana-400K还为复杂编辑场景的研究提供了可能。该数据集包含三个专门的子集:(1)一个包含7.2万样本的多轮编辑集合,用于研究连续修改过程中的序列化编辑、推理与规划能力;(2)一个包含5.6万样本的偏好子集,适用于对齐研究和奖励模型训练;(3)成对的长短编辑指令,可用于开发指令重写与摘要能力。通过提供这一规模庞大、质量高、任务丰富的资源,Pico-Banana-400K为下一代文本引导图像编辑模型的训练与基准测试奠定了坚实的基础。
  • 图表
  • 解决问题
    当前多模态模型在文本引导的图像编辑方面取得了显著进展,但研究社区受限于缺乏大规模、高质量且公开可用的真实图像数据集。现有合成数据集往往在编辑多样性、内容保真度和指令一致性方面存在不足,难以支持复杂编辑任务的研究。
  • 关键思路
    提出Pico-Banana-400K,一个基于真实图像的大规模指令驱动图像编辑数据集,通过利用Nano-Banana模型从OpenImages生成40万组编辑对,并引入细粒度编辑分类体系与基于MLLM的质量评分机制,系统性保障数据的多样性与质量,同时支持单轮、多轮编辑、偏好对齐和指令重写等多任务研究。
  • 其它亮点
    数据集包含三个专业子集:7.2万样本的多轮编辑序列用于推理与规划研究,5.6万样本的偏好对比数据用于对齐与奖励建模,以及成对的长短指令用于指令简化与重写任务;采用MLLM进行自动化质量筛选和内容一致性验证;数据基于真实照片构建,提升现实场景适用性;该数据集已开源,为下一代文本引导图像编辑模型提供了全面的训练与评测基础。
  • 相关研究
    1. GPT-4V and Beyond: Towards Generalist Vision Models 2. Flamingo: a Visual Language Model for Few-Shot Learning 3. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 4. Instruction Tuning for Vision-Language Models: A Survey 5. EditBench: A Benchmark for Evaluating Text-guided Image Editing
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论