Automatic Layout Planning for Visually-Rich Documents with Instruction-Following Models

2024年04月23日
  • 简介
    最近指令跟随模型的进展使得用户与模型的交互更加用户友好和高效,扩大了它们的适用范围。在平面设计中,非专业用户由于技能和资源的限制经常难以创建视觉上令人愉悦的布局。在这项工作中,我们引入了一种新颖的多模式指令跟随框架来进行布局规划,允许用户通过指定画布大小和设计目的(例如书籍封面、海报、宣传册或菜单)轻松地将视觉元素排列成定制的布局。我们开发了三个布局推理任务来训练模型理解和执行布局指令。在两个基准测试上的实验表明,我们的方法不仅简化了非专业人士的设计过程,而且在Crello上的mIoU高出few-shot GPT-4V模型12%。这一进展突显了多模式指令跟随模型自动化和简化设计过程的潜力,为视觉丰富的文档上的广泛设计任务提供了一种易于接近的解决方案。
  • 作者讲解·2
  • 图表
  • 解决问题
    论文旨在解决非专业用户在图形设计中由于技能和资源限制而难以创建视觉上吸引人的布局的问题。论文引入了一种新的多模式指令跟踪框架,允许用户通过指定画布大小和设计目的(如书籍封面、海报、宣传册或菜单)轻松地将视觉元素排列成定制的布局。
  • 关键思路
    论文提出了一种新的多模式指令跟踪框架,通过训练模型来理解和执行布局指令,从而自动化和简化设计过程,为各种视觉丰富的文档提供了一种易于接近的解决方案。
  • 其它亮点
    论文开发了三个布局推理任务来训练模型,实验表明,该方法不仅简化了非专业人士的设计过程,而且在Crello上的mIoU高出12%,超越了少样本GPT-4V模型的性能。此外,本文还提出了一个新颖的多模式指令跟踪框架,为视觉丰富的文档提供了一种易于接近的解决方案。
  • 相关研究
    最近的相关研究包括使用深度学习技术的图像生成和布局自动化,例如Neural Layout等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问