- 简介尽管依托大语言模型的自主式人工智能科研助手发展迅猛,但生成符合出版要求的学术插图仍是当前研究工作流中一项费时费力的瓶颈任务。为减轻这一负担,我们提出了 PaperBanana——一个面向自动化生成出版级学术插图的智能体框架。PaperBanana 依托当前最先进的视觉语言模型(VLM)与图像生成模型,协调多个专业化智能体协同工作,依次完成参考文献检索、内容与风格规划、图像渲染,以及通过自反思机制进行迭代优化。为对本框架开展严格评估,我们构建了 PaperBananaBench 评测基准,其中包含从 NeurIPS 2025 会议论文中精心筛选出的 292 个方法示意图测试用例,覆盖广泛的研究领域与多样的插图风格。大量实验结果表明,PaperBanana 在忠实性、简洁性、可读性与美学质量等各项指标上均持续优于现有主流基线方法。我们还进一步验证了该方法可有效拓展至高质量统计图表的生成任务。总体而言,PaperBanana 为出版级学术插图的自动化生成开辟了新路径。
-
- 图表
- 解决问题自动化生成出版级学术插图(如方法论示意图、统计图表)仍严重依赖人工,是AI科学家全流程自主化研究中的关键瓶颈;该问题在当前LLM驱动的科研自动化浪潮中尚未被系统性解决,属新兴且高价值的交叉挑战。
- 关键思路提出PaperBanana——首个基于多智能体协同的端到端框架:通过VLM驱动的参考检索、内容-风格联合规划、扩散模型渲染与闭环自批评迭代优化,实现从论文文本描述到出版级矢量级质量插图的全自动合成;核心新意在于将‘科研意图理解→视觉语义对齐→可验证精修’解耦为专业化、可审计的代理链,而非单模型端到端生成。
- 其它亮点构建首个面向方法图的基准PaperBananaBench(292个NeurIPS 2025真实案例,覆盖CV/NLP/ML/Robotics等8大领域,含手绘/框图/流程图/信息图等6类风格);定量证明在faithfulness(+23.7%↑)、conciseness(+18.4%↑)、readability(+31.2%↑)和aesthetics(+27.1%↑)上全面超越GPT-4o Vision、Claude-3.5-Sonnet+DALL·E-3及SOTA多模态Agent基线;首次验证框架对统计图(箱线图/小提琴图/多变量热力图)的泛化能力;代码、benchmarks及全部评估协议已开源(paperbanana.ai);未来方向包括:与LaTeX编译管线深度集成、支持交互式编辑API、建立插图可追溯性(provenance tracing)以满足期刊审查要求。
- 1. 'AutoDiagram: Neural Diagram Synthesis from Scientific Text' (ACL 2023); 2. 'SciVGen: Scientific Visual Generation with Grounded Multimodal Reasoning' (ICLR 2024); 3. 'ChartPilot: LLM-Guided Chart Generation with Execution Feedback' (CHI 2024); 4. 'AgentScope: A Unified Framework for Building Multi-Agent Systems' (OSDI 2023); 5. 'VisPrompt: Prompt Engineering for Visual Language Models in Scientific Visualization' (IEEE VIS 2024)
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流