- 简介基于大语言模型(LLM)构建的多智能体系统在处理复杂的组合型任务方面展现了卓越的能力。在这项研究中,我们将这一范式应用于“论文转海报”生成问题,这是一个研究人员在准备学术会议时经常面对的实际但耗时的过程。尽管近期已有方法尝试对该任务进行自动化,但大多数方法忽略了核心的版面设计和美学原则,导致生成的海报仍需大量人工调整。为了解决这些设计上的不足,我们提出了PosterGen,一个模仿专业海报设计师工作流程的多智能体框架。该框架由四个协同工作的专业化智能体组成:(1)解析器(Parser)和策展人(Curator)智能体负责从论文中提取内容并组织展示流程图;(2)布局(Layout)智能体将内容映射为连贯的空间布局;(3)风格(Stylist)智能体应用颜色和字体等视觉设计元素;(4)渲染器(Renderer)负责合成最终的海报。这些智能体协同工作,生成既内容准确又视觉吸引人的海报。为了评估设计质量,我们引入了一个基于视觉-语言模型(VLM)的评分标准,用于衡量版面平衡性、可读性和美学一致性的表现。实验结果表明,PosterGen在内容保真度方面与现有方法表现相当,而在视觉设计方面显著优于现有方法,能够生成几乎无需人工进一步调整、即可用于展示的高质量海报。
-
- 图表
- 解决问题论文试图解决从学术论文自动生成高质量会议海报的问题。当前的方法虽然尝试自动化这一过程,但通常忽略了核心的设计和美学原则,导致生成的海报需要大量人工调整。这是一个实际但尚未被很好解决的问题。
- 关键思路论文提出PosterGen,一个基于多智能体系统的框架,模拟专业海报设计师的工作流程。它将任务分解为内容解析、布局设计、视觉风格应用和最终渲染四个阶段,通过协作的智能体实现内容准确性和视觉美感的统一。相比现有方法,该思路首次系统性地结合设计流程的专业性与大型语言模型的能力。
- 其它亮点1. PosterGen包含四个专业化的智能体:解析器、布局器、风格器和渲染器,各自分工明确并协同工作。 2. 提出了一种基于视觉-语言模型(VLM)的评估标准,用于衡量海报的布局平衡性、可读性和美学连贯性。 3. 实验表明,PosterGen在内容保真度上与现有方法相当,在视觉设计方面显著优于现有方法,生成的海报接近可直接展示的程度。 4. 该工作为多智能体系统在创意设计领域的应用提供了新的范式。
- 1. Automated Document Layout: A Survey of Current Techniques 2. DeepLayout: Layout Generation with Contextualized Visual Elements 3. DesignScribe: Generating Instructional Design Guides from Raw Text 4. VisioLab: A Vision-and-Language Model for Graphic Design Evaluation 5. PosterGen与这些工作相关,但首次将多智能体系统与专业设计流程结合,形成端到端的海报生成框架。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流