- 简介图形设计在各种应用中都很重要,包括电影制作和游戏设计。为了创建高质量的场景,设计师通常需要在诸如Blender之类的软件中花费数小时的时间,其中他们可能需要交错和重复操作,例如连接材质节点,数百次。此外,稍有不同的设计目标可能需要完全不同的序列,使自动化变得困难。在本文中,我们提出了一种系统,利用视觉语言模型(VLM),如GPT-4V,智能地搜索设计操作空间,以得出可以满足用户意图的答案。具体而言,我们设计了一个基于视觉的编辑生成器和状态评估器,共同寻找正确的操作序列以实现目标。受到视觉想象在人类设计过程中的作用的启发,我们通过图像生成模型提供“想象”的参考图像,以补充VLM的视觉推理能力,从而提供抽象语言描述的视觉基础。在本文中,我们提供了实证证据,表明我们的系统可以为诸如从文本和/或参考图像编辑程序材料以及调整复杂场景中的产品渲染的照明配置等任务生成简单但繁琐的Blender编辑序列。
- 图表
- 解决问题本论文旨在解决图形设计中重复性高、需要耗费大量时间的操作自动化问题,提出了一种基于视觉语言模型的设计动作搜索系统。
- 关键思路该系统利用视觉语言模型和图像生成模型的能力,通过视觉推理和语言描述生成编辑序列,实现对Blender软件中复杂场景的材质和灯光等操作的自动化。
- 其它亮点论文使用GPT-4V等视觉语言模型和图像生成模型生成视觉化的语言描述,设计了视觉编辑生成器和状态评估器来协同工作,实现了基于视觉语言模型的设计动作搜索。实验结果表明,该系统可以成功生成简单但繁琐的Blender编辑序列,并且可以应用于材质编辑和灯光配置等任务。论文提供了数据集和代码的开源。
- 近年来,基于视觉语言模型的设计动作搜索在图形设计领域中受到越来越多的关注。相关研究包括《Visual Interaction Networks》、《Neural Task Graphs: Generalizing to Unseen Tasks from a Single Video Demonstration》等。
沙发等你来抢
去评论
评论
沙发等你来抢